このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240903となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 共通正規化手法がオープンセット認識に及ぼす影響
Effects of Common Regularization Techniques on Open-Set Recognition ( http://arxiv.org/abs/2409.12217v1 ) ライセンス: Link先を確認 | Zachary Rabin, Jim Davis, Benjamin Lewis, Matthew Scherreik, | (参考訳) 近年、オープンセット認識(Open-Set Recognition)の分野への関心が高まっており、トレーニングセットにないオブジェクトやクラスに遭遇した場合、分類モデルで入力を「未知」として識別できるようになっている。
未知の入力をフラグするこの能力は、多くの現実世界の分類アプリケーションにとって極めて重要である。
ニューラルネットワークの現代的なトレーニング手法のほとんどは、一般化のために大量の正規化を使用するため、正規化技術がオープンセット認識を行うモデルの能力にどのように影響するかを検討することが重要である。
本研究では,共通正規化手法とオープンセット認識性能の関係について検討する。
我々の実験は、特定のオープンセット検出アルゴリズムに非依存であり、幅広いデータセットにまたがる影響を調べる。
我々は,正規化手法がオープンセット認識性能を大幅に向上させることができることを実証的に示し,精度とオープンセット性能の関係について新たな知見を提供する。
In recent years there has been increasing interest in the field of Open-Set Recognition, which allows a classification model to identify inputs as "unknown" when it encounters an object or class not in the training set. This ability to flag unknown inputs is of vital importance to many real world classification applications. As almost all modern training methods for neural networks use extensive amounts of regularization for generalization, it is therefore important to examine how regularization techniques impact the ability of a model to perform Open-Set Recognition. In this work, we examine the relationship between common regularization techniques and Open-Set Recognition performance. Our experiments are agnostic to the specific open-set detection algorithm and examine the effects across a wide range of datasets. We show empirically that regularization methods can provide significant improvements to Open-Set Recognition performance, and we provide new insights into the relationship between accuracy and Open-Set performance. | 翻訳日:2024-11-07 15:49:40 公開日:2024-09-03 |
# 医用画像の基礎モデルの時代が近づきつつある : 放射線学における大規模生成AI応用の臨床的価値のスコーピングレビュー
The Era of Foundation Models in Medical Imaging is Approaching : A Scoping Review of the Clinical Value of Large-Scale Generative AI Applications in Radiology ( http://arxiv.org/abs/2409.12973v1 ) ライセンス: Link先を確認 | Inwoo Seo, Eunkyoung Bae, Joo-Young Jeon, Young-Sang Yoon, Jiho Cha, | (参考訳) 放射線技師の不足に起因する社会問題は激化しており、人工知能は潜在的な解決策として強調されている。
最近出現する大規模生成AIは、大規模言語モデル(LLM)からマルチモーダルモデルへと拡張され、医療画像の全プロセスに革命をもたらす可能性がある。
しかしながら、彼らの開発状況と今後の課題に関する包括的なレビューは、現在不足している。
このスコーピングレビューは,PCCガイドラインに従うことで,大規模生成型AIアプリケーションの臨床的価値に関する既存の文献を体系的に整理する。
PubMed、EMbase、IEEE-Xplore、Google Scholarの4つのデータベースで体系的な検索が行われ、研究者が設定した包括的・排他的基準を満たす15の研究がレビューされた。
これらの研究の多くは、解釈プロセスの特定の部分におけるレポート生成の効率の改善や、患者の理解を助けるためにレポートを翻訳することに焦点を当て、最新の研究は直接解釈を行うAIアプリケーションにまで拡張された。
全ての研究は臨床医によって定量的に評価され、そのほとんどはLSMを使用し、マルチモーダルモデルを採用しているのはわずか3つだけだった。
LLM, マルチモーダルモデルともに, 特定の領域において優れた成績を示したが, 診断成績に優れた成績は得られなかった。
ほとんどの研究はGPTを利用しており、医療画像領域に特化したモデルはほとんど使われていない。
本研究は、医用画像分野における大規模生成AIベースの応用の現状と限界に関する知見を提供し、基礎データを提供し、医用画像基盤モデルの時代が地平線上にあることを示唆し、近い将来、臨床実践を根本的に変える可能性がある。
Social problems stemming from the shortage of radiologists are intensifying, and artificial intelligence is being highlighted as a potential solution. Recently emerging large-scale generative AI has expanded from large language models (LLMs) to multi-modal models, showing potential to revolutionize the entire process of medical imaging. However, comprehensive reviews on their development status and future challenges are currently lacking. This scoping review systematically organizes existing literature on the clinical value of large-scale generative AI applications by following PCC guidelines. A systematic search was conducted across four databases: PubMed, EMbase, IEEE-Xplore, and Google Scholar, and 15 studies meeting the inclusion/exclusion criteria set by the researchers were reviewed. Most of these studies focused on improving the efficiency of report generation in specific parts of the interpretation process or on translating reports to aid patient understanding, with the latest studies extending to AI applications performing direct interpretations. All studies were quantitatively evaluated by clinicians, with most utilizing LLMs and only three employing multi-modal models. Both LLMs and multi-modal models showed excellent results in specific areas, but none yet outperformed radiologists in diagnostic performance. Most studies utilized GPT, with few using models specialized for the medical imaging domain. This study provides insights into the current state and limitations of large-scale generative AI-based applications in the medical imaging field, offering foundational data and suggesting that the era of medical imaging foundation models is on the horizon, which may fundamentally transform clinical practice in the near future. | 翻訳日:2024-11-07 12:36:59 公開日:2024-09-03 |
# Excel: 自動LedgerかAnalytics IDEか?
Excel: Automated Ledger or Analytics IDE? ( http://arxiv.org/abs/2409.12976v1 ) ライセンス: Link先を確認 | Andrew Kumiega, | (参考訳) VisiCalcの誕生から40年以上経ち、スプレッドシートは段階的な変換を経て、単純な台帳自動化ツールから、分析のための統合開発環境(IDE)として記述可能なExcelの現在の状態へと進化した。
台帳の自動化ツールから分析用IDEへのExcelのゆっくりとした進化は、Excelが完全に機能するデータベース、OLAPエンジン、複数の統計プログラミング言語、複数のサードパーティ製ソフトウェアライブラリ、動的チャート、リアルタイムデータコネクタを含むことに気づかなかった理由を説明している。
これらの複数のツールにアクセスする単純さは、事実上IDEであるExcelツールから制御されるローコードフレームワークである。
Excelのデスクトップアプリケーションから分析用IDEへの移行を認めれば、この独特な開発環境を管理するための包括的なリスクフレームワークを確立することが重要になる。
本稿では,Excelを分析用IDEとして使用するリスクの増加を管理するために,現在のスプレッドシートのリスクフレームワークをどのように拡張する必要があるかを説明する。
Since the inception of VisiCalc over four decades ago, spreadsheets have undergone a gradual transformation, evolving from simple ledger automation tools to the current state of Excel, which can be described as an Integrated Development Environment (IDE) for analytics. The slow evolution of Excel from an automation tool for ledgers to an IDE for analytics explains why many people have not noticed that Excel includes a fully functional database, an OLAP Engine, multiple statistical programming languages, multiple third-party software libraries, dynamic charts, and real time data connectors. The simplicity of accessing these multiple tools is a low-code framework controlled from the Excel tool that is effectively an IDE. Once we acknowledge Excel's shift from a desk top application to an IDE for analytics, the importance of establishing a comprehensive risk framework for managing this distinctive development environment becomes clear. In this paper we will explain how the current risk framework for spreadsheets needs to be expanded to manage the growing risks of using Excel as an IDE for analytics. | 翻訳日:2024-11-07 12:36:59 公開日:2024-09-03 |
# 一度だけ見る(YOLO)マルチスペクトル物体検出の進歩と応用と課題
Surveying You Only Look Once (YOLO) Multispectral Object Detection Advancements, Applications And Challenges ( http://arxiv.org/abs/2409.12977v1 ) ライセンス: Link先を確認 | James E. Gallagher, Edward J. Oughton, | (参考訳) マルチスペクトルイメージングとディープラーニングは、自動運転車から農業、インフラ監視、環境評価に至るまで、多様なユースケースをサポートする強力なツールとして登場した。
これらの技術の組み合わせにより、非可視光スペクトルにおける物体の検出、分類、セグメンテーションタスクが大幅に進歩した。
本稿では,多スペクトルイメージング技術,深層学習モデル,およびそれらの応用の権威的メタレビューを,You Only Look Once(YOLO)手法の進化と適応を考慮した400の論文を詳細に検討し,200の論文を概説する。
地上からの収集は最も一般的なアプローチであり、レビューされた論文の63%を合計しているが、YOLOマルチスペクトルの無人航空システム(UAS)は2020年以来倍増している。
最も一般的なセンサー融合は、RGB(Red-Green-Blue)とLWIR(Long-Wave Infrared)であり、文献の39%を占めている。
YOLOv5は、修正された全てのYOLOモデルの33%からなる、マルチスペクトルアプリケーションへの適応に最もよく使われる変種である。
中国では、マルチスペクトル-YOLO研究の58%が実施されており、他国と大きく類似している(中国の機関から派生していない論文では、平均ジャーナルインパクト係数4.45対4.36対4.36)。
今後の研究課題
一 広範囲なアーキテクチャ変更を必要としない多様なスペクトル入力を処理できる適応型YOLOアーキテクチャを開発すること。
(II)大規模合成多スペクトルデータセットの作成方法
3 データセットの不足に対処する多スペクトルYOLO転送学習技術の進歩
(4)RGB及びLWIR以外のセンサとの融合研究の革新。
Multispectral imaging and deep learning have emerged as powerful tools supporting diverse use cases from autonomous vehicles, to agriculture, infrastructure monitoring and environmental assessment. The combination of these technologies has led to significant advancements in object detection, classification, and segmentation tasks in the non-visible light spectrum. This paper considers 400 total papers, reviewing 200 in detail to provide an authoritative meta-review of multispectral imaging technologies, deep learning models, and their applications, considering the evolution and adaptation of You Only Look Once (YOLO) methods. Ground-based collection is the most prevalent approach, totaling 63% of the papers reviewed, although uncrewed aerial systems (UAS) for YOLO-multispectral applications have doubled since 2020. The most prevalent sensor fusion is Red-Green-Blue (RGB) with Long-Wave Infrared (LWIR), comprising 39% of the literature. YOLOv5 remains the most used variant for adaption to multispectral applications, consisting of 33% of all modified YOLO models reviewed. 58% of multispectral-YOLO research is being conducted in China, with broadly similar research quality to other countries (with a mean journal impact factor of 4.45 versus 4.36 for papers not originating from Chinese institutions). Future research needs to focus on (i) developing adaptive YOLO architectures capable of handling diverse spectral inputs that do not require extensive architectural modifications, (ii) exploring methods to generate large synthetic multispectral datasets, (iii) advancing multispectral YOLO transfer learning techniques to address dataset scarcity, and (iv) innovating fusion research with other sensor types beyond RGB and LWIR. | 翻訳日:2024-11-07 12:36:59 公開日:2024-09-03 |
# Semantic Meta-Split Learning:Few-Shot Wireless Image ClassificationのためのTinyMLスキーム
Semantic Meta-Split Learning: A TinyML Scheme for Few-Shot Wireless Image Classification ( http://arxiv.org/abs/2409.12978v1 ) ライセンス: Link先を確認 | Eslam Eldeeb, Mohammad Shehab, Hirley Alves, Mohamed-Slim Alouini, | (参考訳) セマンティック・ゴール指向通信(SGO)は、与えられたタスクに対してのみ重要な情報を伝達する新興技術である。
セマンティック通信は、エンドユーザの計算複雑性、データの可用性、プライバシ保護など、多くの課題に直面している。
本研究は,分割学習とメタ学習を統合した,数ショットの無線画像分類のためのTinyMLベースのセマンティックコミュニケーションフレームワークを提案する。
我々は、プライバシ保護を確保しつつ、エンドユーザーによって実行される計算を制限するために分割学習を利用する。
さらに、メタラーニングはデータ可用性の懸念を克服し、同様のトレーニングされたタスクを活用することでトレーニングを高速化する。
提案アルゴリズムは手書き文字の画像のデータセットを用いて検証する。
さらに,共形予測(CP)技術を用いた予測の不確実性の解析を行った。
シミュレーションの結果,提案したSemantic-MSLは,データポイントが少ないがトレーニングエネルギー消費が少ないため,分類精度が20%向上し,従来のスキームよりも優れていた。
Semantic and goal-oriented (SGO) communication is an emerging technology that only transmits significant information for a given task. Semantic communication encounters many challenges, such as computational complexity at end users, availability of data, and privacy-preserving. This work presents a TinyML-based semantic communication framework for few-shot wireless image classification that integrates split-learning and meta-learning. We exploit split-learning to limit the computations performed by the end-users while ensuring privacy-preserving. In addition, meta-learning overcomes data availability concerns and speeds up training by utilizing similarly trained tasks. The proposed algorithm is tested using a data set of images of hand-written letters. In addition, we present an uncertainty analysis of the predictions using conformal prediction (CP) techniques. Simulation results show that the proposed Semantic-MSL outperforms conventional schemes by achieving 20 % gain on classification accuracy using fewer data points, yet less training energy consumption. | 翻訳日:2024-11-07 12:25:44 公開日:2024-09-03 |
# インプロンプトでショットする代わりに、ガイドラインのみを使用することができますか?
Can we only use guideline instead of shot in prompt? ( http://arxiv.org/abs/2409.12979v1 ) ライセンス: Link先を確認 | Jiaxiang Chen, Song Wang, Zhucong Li, Wayne Xiong, Lizhen Qu, Zenglin Xu, Yuan Qi, | (参考訳) 現在、プロンプト技術は主に2つのカテゴリに分けられる:1)ショット法は、与えられた例のステップ、例えば、数ショットのCoTを模倣することによって、モデルに暗黙的に質問に答えるよう促す。
2)指針法は,簡潔かつ簡潔なタスク固有の知識を含むガイドラインに従って,モデルに推論を明示的に指示する。
ショット方式は、ショットの種類の選択、ショットの数、推論ステップの設計の難しさを招きがちである。
そこで本研究では,フィードバック,ガイドライン,ツリーガザエージェントからなるデータセットから,タスク固有のガイドラインを自動的に学習するFGTフレームワークを提案する。
まず、フィードバックエージェントは、各Q&Aの結果を正しくも悪くも評価するように設計され、より効果的な最適化戦略を導く洞察を集める。
次に、ガイドラインエージェントは、各フィードバックからガイドラインを導出し、それらをローカルメモリに格納する。
最後に、ツリー収集エージェントは、すべてのガイドラインを階層的に木構造を通して集約し、最終的に、グローバルな視点から、無関係なガイドラインを全て取得する。
さらに,このモデルを用いて中間プロセスを生成し,その推論とガイドラインの整合性を確保する。
実験結果から,本手法は複数のタスクにまたがる優れた性能を実現し,即時的なガイドライン適用の有効性を強調した。
Currently, prompting techniques can be mainly divided into two categories:1)shot method implicitly inspires the model to answer the question by mimicing the steps in the given example, e.g., the few-shot CoT. 2) Guideline method explicitly instructs the model to reason by following guidelines, which contains succinct and concise task-specific knowledge. Shot method is prone to difficulties in terms of selection of shots type, the number of shots, and the design of the reasoning steps, so a question arises: can we only use guideline instead of shot in the prompt? To this end, we propose the FGT framework to automatically learn task-specific guidelines from dataset consisting of Feedback, Guideline, and Tree-gather agents. First, the feedback agent is designed to evaluate the outcomes, both right and wrong, of each Q&A to gather insights guiding more effective optimization strategies. Next, the guideline agent is tasked with deriving guidelines from each piece of feedback and storing them in local memory. Lastly, the tree-gather agent aggregates all guidelines hierarchically through a tree structure, ultimately obtaining all unduplicated guidelines from a global perspective. In addition, we induce the model to generate intermediate processes to ensure the reasoning consistent with the guidelines. Experimental results demonstrate that our approach achieves superior performance across multiple tasks, thereby highlighting the effectiveness of using the guidelines in prompt. | 翻訳日:2024-11-07 12:25:44 公開日:2024-09-03 |
# 新しい人オブジェクトインタラクションデータセットとNVSベンチマーク
A New People-Object Interaction Dataset and NVS Benchmarks ( http://arxiv.org/abs/2409.12980v1 ) ライセンス: Link先を確認 | Shuai Guo, Houqiang Zhong, Qiuwen Wang, Ziyu Chen, Yijie Gao, Jiajing Yuan, Chenyu Zhang, Rong Xie, Li Song, | (参考訳) 近年,人間と物体の相互作用シーンにおけるNVSへの注目が高まっている。
既存の人間とオブジェクトのインタラクションデータセットは主に、限られたビューを持つ静的データで構成されており、RGBの画像やビデオのみを提供し、主に1人とオブジェクト間のインタラクションを含んでいる。
さらに、これらのデータセットは、照明環境、同期性の悪い、解像度の低い複雑さを示し、高品質な人間と物体の相互作用研究を妨げる。
本稿では,カメラパラメータ,フォアグラウンドマスク,SMPLモデル,ポイントクラウド,メッシュファイルなどを伴う,30-viewの複数対1のRGB-Dビデオシーケンスを38シリーズにまとめた新たな人対物インタラクションデータセットを提案する。
ビデオシーケンスは30のKinect Azureによってキャプチャされ、シーンを均一に囲み、それぞれ4K解像度25 FPSで、1$\sim$19秒続く。
一方、データセット上でいくつかのSOTA NVSモデルを評価し、NVSベンチマークを確立する。
私たちの研究が、人間とオブジェクトの相互作用に関するさらなる研究を刺激してくれることを願っています。
Recently, NVS in human-object interaction scenes has received increasing attention. Existing human-object interaction datasets mainly consist of static data with limited views, offering only RGB images or videos, mostly containing interactions between a single person and objects. Moreover, these datasets exhibit complexities in lighting environments, poor synchronization, and low resolution, hindering high-quality human-object interaction studies. In this paper, we introduce a new people-object interaction dataset that comprises 38 series of 30-view multi-person or single-person RGB-D video sequences, accompanied by camera parameters, foreground masks, SMPL models, some point clouds, and mesh files. Video sequences are captured by 30 Kinect Azures, uniformly surrounding the scene, each in 4K resolution 25 FPS, and lasting for 1$\sim$19 seconds. Meanwhile, we evaluate some SOTA NVS models on our dataset to establish the NVS benchmarks. We hope our work can inspire further research in humanobject interaction. | 翻訳日:2024-11-07 12:25:44 公開日:2024-09-03 |
# 知識中心型ベンチマークフレームワークと検索機能強化のための実証的研究
A Knowledge-Centric Benchmarking Framework and Empirical Study for Retrieval-Augmented Generation ( http://arxiv.org/abs/2409.13694v1 ) ライセンス: Link先を確認 | Shuo Yu, Mingyue Cheng, Jiqian Yang, Jie Ouyang, | (参考訳) Retrieval-Augmented Generation (RAG)は、検索機構を統合して生成モデルを強化し、これらのモデルが外部の知識ソースにアクセスし利用できるようにする。
その利点にもかかわらず、RAGは特に現実世界のクエリを効果的に処理し、幻覚を緩和する上で、重大な課題に直面している。
KDD Cup 2024 CRAGコンペティションは、WebページとモックAPIの両方を知識ソースとして組み込むことによって、これらの問題を最前線に持ち込み、大きな言語モデル(LLM)が情報を処理する前にHTMLを解析する複雑さを追加する。
本稿では,これらの課題に対処する新しいRAGベンチマークを提案する。
我々の研究は総合的な実験結果を提供し、RAGの研究に貴重な洞察を与えています。
我々は、知識ソースの選択、検索、組織化、推論を含むRAGプロセス全体を徹底的に検討する。
本研究の主な成果は,エージェントを用いた自動知識源選択の影響とRAG推論におけるノイズチャンクの影響である。
さらに,各種ハイパーパラメータがRAG性能に与える影響について詳細な実験を行った。
さらなる研究を支援するため、CRAGデータセットの成果、関連コード、解析されたバージョンを公開し、RAG方法論の進歩に寄与し、この領域における将来的な研究のための確かな基盤を確立しました。
Retrieval-Augmented Generation (RAG) enhances generative models by integrating retrieval mechanisms, which allow these models to access and utilize external knowledge sources. Despite its advantages, RAG encounters significant challenges, particularly in effectively handling real-world queries and mitigating hallucinations. The KDD Cup 2024 CRAG competition brings these issues to the forefront by incorporating both web pages and a mock API as knowledge sources, adding the complexity of parsing HTML before large language models (LLMs) can process the information. In this paper, we propose a novel RAG benchmark designed to address these challenges. Our work provides a comprehensive set of experimental results, offering valuable insights for the study of RAG. We thoroughly examine the entire RAG process, including knowledge source selection, retrieval, organization, and reasoning. Key findings from our study include the impact of automated knowledge source selection using agents and the influence of noise chunks on RAG reasoning. Additionally, we conduct detailed experiments to analyze the effects of various hyperparameters on RAG performance. To support further research, we have made our results, the associated code, and a parsed version of the CRAG dataset publicly available\footnote{https://github.com/USTCAGI/RAG-X}, contributing to the advancement of RAG methodologies and establishing a solid foundation for future work in this domain. | 翻訳日:2024-11-07 05:57:35 公開日:2024-09-03 |
# 長時間のコンテキスト検索にはリアクティブアテンションスライスのみを使用する
You Only Use Reactive Attention Slice For Long Context Retrieval ( http://arxiv.org/abs/2409.13695v1 ) ライセンス: Link先を確認 | Yun Joon Soh, Hanxian Huang, Yuandong Tian, Jishen Zhao, | (参考訳) LLM(Large Language Models)のより長いコンテキストのサポートは、LLMを前進させる有望な方向である。
より長いコンテキストウインドウのモデルのトレーニングには計算コストがかかるため、Retrieval Augmented Generation (RAG) など多くの代替ソリューションが使用されている。
しかし、既存のRAGメソッドの多くは、長いコンテキストで不足する埋め込みベースの検索を採用している。
このような課題に対処するために、注意に基づく検索手法、You Only Use Reactive Attention slice (YOURA)を提案する。
YOURAは、リアクションスコアと呼ばれる新しい検索ヒューリスティックを利用して、入力コンテキストにおける各文の関連性をクエリ文でランク付けする。
直感的には、単語ごとの注意スコアがクエリに対してどのように「反応」するかを測定し、最も反応性の高い文を優雅に検索する。
内部的には、YOURAは入力コンテキスト全体に対してトークンインデックスベクター(反応ベクトルと呼ばれる)を生成する。
トークンインデックス付きベクトルに各文をマッピングするために,ベストエフォートトークンウィグリングアルゴリズムであるEmbedding-Agnostic Sentence Yield (EASY)を提案する。
6つのLongBench QAデータセットを対象とした3つのオープンソースLLMモデルに対して,検索手法の評価を行った。
提案手法は,提案手法とほぼ同一品質の長文クエリに対して,最大30%のvLLM推論スループット向上を実現する。
Supporting longer context for Large Language Models (LLM) is a promising direction to advance LLMs. As training a model for a longer context window is computationally expensive, many alternative solutions, such as Retrieval Augmented Generation (RAG), have been used. However, most existing RAG methods adopt embedding-based retrieval that falls short on long contexts. To address such challenges, we propose an attention-based retrieval technique, You Only Use Reactive Attention slice (YOURA). YOURA leverages a novel retrieval heuristic called reaction score to rank the relevance of each sentence in the input context with the query sentence. Intuitively, we measure how the per-token attention score "reacts" to the query and greedily retrieves the most reactive sentences. Internally, YOURA generates a token-indexed vector (called reaction vector) for the whole input context. To map each sentence to the token-indexed vector, we propose an Embedding-Agnostic Sentence Yield (EASY), a best-effort token wiggling algorithm. We evaluate our retrieval technique on three open-source pre-trained LLM models across six LongBench QA datasets. Our technique achieves up to 30% vLLM inference throughput improvement for serving long-context queries with a nearly identical quality score to the simple yet effective truncate-middle approach. | 翻訳日:2024-11-07 05:57:35 公開日:2024-09-03 |
# 大気乱流除去のための深層学習技術:概観
Deep Learning Techniques for Atmospheric Turbulence Removal: A Review ( http://arxiv.org/abs/2409.14587v1 ) ライセンス: Link先を確認 | Paul Hill, Nantheera Anantrasirichai, Alin Achim, David Bull, | (参考訳) 得られた画像に対する大気乱流の影響は、画像の解釈とシーン解析を極めて困難にし、シーンの関心対象の分類・追跡における従来の手法の有効性を低下させる。
大気の乱流によって歪んだシーンの復元も難しい問題です。
この効果は、ランダムで空間的に異なる摂動によって引き起こされるものであり、従来のモデルに基づくアプローチを困難にし、多くの場合、複雑さと記憶の要求により実用的でない。
ディープラーニングアプローチは、より高速な操作を提供し、小さなデバイス上で実装することができる。
本稿では,大気乱流の特性と得られた画像への影響について概説する。
時空間の歪みを軽減するために、Transformers、SWIN、Mambaなど、最先端のディープニューラルネットワークの性能を比較する。
The influence of atmospheric turbulence on acquired imagery makes image interpretation and scene analysis extremely difficult and reduces the effectiveness of conventional approaches for classifying and tracking objects of interest in the scene. Restoring a scene distorted by atmospheric turbulence is also a challenging problem. The effect, which is caused by random, spatially varying perturbations, makes conventional model-based approaches difficult and, in most cases, impractical due to complexity and memory requirements. Deep learning approaches offer faster operation and are capable of implementation on small devices. This paper reviews the characteristics of atmospheric turbulence and its impact on acquired imagery. It compares the performance of various state-of-the-art deep neural networks, including Transformers, SWIN and Mamba, when used to mitigate spatio-temporal image distortions. | 翻訳日:2024-11-06 21:57:16 公開日:2024-09-03 |
# アルティメットにおけるドローン映像を用いたピッチ制御による空間評価
Space evaluation based on pitch control using drone video in Ultimate ( http://arxiv.org/abs/2409.14588v1 ) ライセンス: Link先を確認 | Shunsuke Iwashita, Atom Scott, Rikuhei Umemoto, Ning Ding, Keisuke Fujii, | (参考訳) アルティメットは、7人のプレーヤーがディスクをエンドゾーンに渡すことでポイントを競うスポーツである。
アルティメットの特筆すべき側面は、ディスクを持っているプレイヤーは移動できず、パスを受け取るための空間を作成することの重要性を暗示していることである。
サッカーやバスケットボールなどのスポーツにおける宇宙評価に関する広範な研究にもかかわらず、アルティメットには多くの情報がある。
本研究は,アルティメットで広く採用されている3-on-3フォーマットに着目し,攻撃的プレイにおける空間評価を行う。
データ収集プロセスは、位置データを取得するために、撮影用のドローンの使用とその後の角度の補正を伴っていた。
モデルはサッカーのピッチコントロールモデルから派生し、ディスクを保持するプレイヤーが静止しているUltimateのルールに適合する。
位置重みと距離重みをピッチ制御値と統合することにより、空間評価指標の導出が可能となる。
本研究の結果は,空間を創り出す動きと,その空間を正確に通過させる動きが,スコアリングにおいて重要な要因であることが示唆された。
コードはhttps://github.com/shunsuke-iwashita/USO.comで公開されている。
Ultimate is a sport in which teams of seven players compete for points by passing a disc into the end zone. A distinctive aspect of Ultimate is that the player holding the disc is unable to move, underscoring the significance of creating space to receive passes. Despite extensive research into space evaluation in sports such as football and basketball, there is a paucity of information available for Ultimate. This study focuses on the 3-on-3 format, which is widely practiced in Ultimate, and evaluates space during offensive play. The data collection process entailed the use of drones for filming and the subsequent correction of the angles for the purpose of obtaining positional data. The model is derived from the pitch control model of soccer and adapted to the rules of Ultimate, where the player holding the disc is stationary. The integration of position and distance weights with pitch control values enables the derivation of space evaluation metrics. The findings of this study indicate that movement to create space and accurate passing into that space are both significant factors in scoring. The code is available at https://github.com/shunsuke-iwashita/USO. | 翻訳日:2024-11-06 21:57:16 公開日:2024-09-03 |
# 等価性に基づく自己教師型学習によるクリップ計測による音声信号の回復
Equivariance-based self-supervised learning for audio signal recovery from clipped measurements ( http://arxiv.org/abs/2409.15283v1 ) ライセンス: Link先を確認 | Victor Sechaud, Laurent Jacques, Patrice Abry, Julián Tachella, | (参考訳) 多くの逆問題において、最先端の問題解決戦略は、ニューラルネットワークを地上の真実と関連する測定データセットから訓練することを含む。
近年, 自己指導型学習技術が登場し, 基礎的真理データを必要としないという大きな利点がある。
自己教師付き学習における最も理論的および実験的結果は線形逆問題に焦点をあてる。
本研究の目的は,クリップ計測から音声信号を復元する非線形逆問題に対する自己教師型学習の研究である。
等分散に基づく自己監督的損失を提案し,検討した。
クリッピングレベルを制御し,様々なレベルのクリッピングを施したシミュレートされたクリッピング測定により,その性能を評価し,さらに標準的な音楽信号について報告する。
提案手法の有効性は, クリッピングした測定のみを訓練に必要としながら, 完全教師付き学習と良好に比較できることを示す。
In numerous inverse problems, state-of-the-art solving strategies involve training neural networks from ground truth and associated measurement datasets that, however, may be expensive or impossible to collect. Recently, self-supervised learning techniques have emerged, with the major advantage of no longer requiring ground truth data. Most theoretical and experimental results on self-supervised learning focus on linear inverse problems. The present work aims to study self-supervised learning for the non-linear inverse problem of recovering audio signals from clipped measurements. An equivariance-based selfsupervised loss is proposed and studied. Performance is assessed on simulated clipped measurements with controlled and varied levels of clipping, and further reported on standard real music signals. We show that the performance of the proposed equivariance-based self-supervised declipping strategy compares favorably to fully supervised learning while only requiring clipped measurements alone for training. | 翻訳日:2024-11-06 20:16:59 公開日:2024-09-03 |
# NGT200データセット:Geometric Multi-View Isolated Sign Recognition
The NGT200 Dataset: Geometric Multi-View Isolated Sign Recognition ( http://arxiv.org/abs/2409.15284v1 ) ライセンス: Link先を確認 | Oline Ranum, David R. Wessels, Gomer Otterspeer, Erik J. Bekkers, Floris Roelofsen, Jari I. Andersen, | (参考訳) 手話処理(SLP)は、言語技術におけるより包括的な未来の基礎を提供するが、現実の実用的なアプリケーションを実現するために対処しなければならないいくつかの重要な課題に直面している。
本研究は多視点孤立手話認識(MV-ISR)に対処し,SLPシステムにおける3D認識と幾何学の重要性を強調した。
我々は,新しい時空間マルチビューベンチマークであるNGT200データセットを導入し,MV-ISRを単視点ISR(SV-ISR)とは異なるものとして確立した。
合成データの利点を実証し,手話固有の空間対称性の条件付き手話表現を提案する。
SE(2)同変モデルの活用により、MV-ISRの性能はベースライン上で8%-22%向上する。
Sign Language Processing (SLP) provides a foundation for a more inclusive future in language technology; however, the field faces several significant challenges that must be addressed to achieve practical, real-world applications. This work addresses multi-view isolated sign recognition (MV-ISR), and highlights the essential role of 3D awareness and geometry in SLP systems. We introduce the NGT200 dataset, a novel spatio-temporal multi-view benchmark, establishing MV-ISR as distinct from single-view ISR (SV-ISR). We demonstrate the benefits of synthetic data and propose conditioning sign representations on spatial symmetries inherent in sign language. Leveraging an SE(2) equivariant model improves MV-ISR performance by 8%-22% over the baseline. | 翻訳日:2024-11-06 20:16:59 公開日:2024-09-03 |
# 量子状態と量子コンピューティング
Quantum states and quantum computing ( http://arxiv.org/abs/2409.15285v1 ) ライセンス: Link先を確認 | Mohammad Vahid Takook, Ali Mohammad-Djafari, | (参考訳) 古典理論では、物理系は粒子と波の概念によって解明される。
この枠組みでは、粒子は時間関数として位置ベクトル$\vec{x}(t)$で数学的に表現され、一方波動は時空のテンソル場$\Phi(t, \vec{x})$でモデル化される。
これらの関数は宇宙空間に埋め込まれ、時空内で進化する。
物理系に関する全ての情報はこれらの数学的機能にコード化され、そこで古典的な技術が開発されている。
対照的に、量子理論はヒルベルト空間内で進化している量子状態 $\vert \alpha ,t\rangle$ を用いて物理系をモデル化し、本質的な不確実性を持つ系の現実を描いている。
現実観測の確率論的性質にもかかわらず、量子状態 $\vert \alpha ,t\rangle$ は初期状態を知っているならばユニタリ原理により正確に決定できる。
したがって、これは電子工学に似た量子状態トロニクスと呼ばれる量子技術の基盤として機能する。
この議論は、その拡張範囲を考えると、量子計算に焦点を当てている。
量子コンピューティングにおける最重要課題の1つは、量子場理論の必須知識とこの分野に必要な訓練を備えた個人の不足である。
本稿では、量子場理論の基本概念と量子コンピューティングとの相互接続を解明し、量子コンピューティングに関わる人々のためにそれらを単純化することを目的とする。
In classical theory, the physical systems are elucidated through the concepts of particles and waves, which aim to describe the reality of the physical system with certainty. In this framework, particles are mathematically represented by position vectors as functions of time, $\vec{x}(t)$, while waves are modeled by tensor fields in space-time, $\Phi(t, \vec{x})$. These functions are embedded in, and evolve within space-time. All information about the physical system are coded in these mathematical functions, upon which the classical technologies are developed. In contrast, quantum theory models the physical system using a quantum state $\vert \alpha ,t\rangle$, situated in an evolving within Hilbert space, portraying the system's reality with inherent uncertainty. Despite the probabilistic nature of reality observation, the quantum state $\vert \alpha ,t\rangle$ can be precisely determined due to the unitary principle, provided we know the initial state. Therefore, it can serve as a foundation for developing quantum technologies, which we call quantum state-tronics similar to electronics. This discussion focuses on quantum computation, given its expansive scope. One of the paramount challenges in quantum computing is the scarcity of individuals equipped with the requisite knowledge of quantum field theory and the training necessary for this field. This article aims to elucidate the fundamental concepts of quantum field theory and their interconnections with quantum computing, striving to simplify them for those engaged in quantum computing. | 翻訳日:2024-11-06 20:16:59 公開日:2024-09-03 |
# 心臓の運命を解読する - 最先端機械学習アプローチによる将来的リスクの解明
Deciphering Cardiac Destiny: Unveiling Future Risks Through Cutting-Edge Machine Learning Approaches ( http://arxiv.org/abs/2409.15287v1 ) ライセンス: Link先を確認 | G. Divya, M. Naga SravanKumar, T. JayaDharani, B. Pavan, K. Praveen, | (参考訳) 心停止は世界中で主要な死因であり、早期発見と介入の予防措置が必要である。
本研究の目的は,臨床パラメータと患者履歴の包括的データセットを用いて,心停止事故のタイムリーな同定のための予測モデルを開発し,評価することである。
XGBoost、Gradient Boosting、Naive Bayesといった機械学習(ML)アルゴリズムと、Recurrent Neural Networks(RNN)によるディープラーニング(DL)アプローチを採用することで、早期検出機能の向上を目指している。
厳密な実験と検証により、データ内の複雑な時間的依存関係を効果的にキャプチャするRNNモデルの優れた性能が明らかになった。
本研究は,早期のリスク階層化とパーソナライズされた介入を通じて,患者の治療改善の可能性を強調し,心停止の可能性を正確に予測する上で,これらのモデルの有効性を強調した。
高度な分析を活用することで、医療提供者は、心停止リスクを積極的に軽減し、リソース割り当てを最適化し、患者の結果を改善することができる。
本研究は、心臓血管のリスク管理における機械学習とディープラーニング技術の変革の可能性を強調し、予測医療分析の分野を前進させるものである。
Cardiac arrest remains a leading cause of death worldwide, necessitating proactive measures for early detection and intervention. This project aims to develop and assess predictive models for the timely identification of cardiac arrest incidents, utilizing a comprehensive dataset of clinical parameters and patient histories. Employing machine learning (ML) algorithms like XGBoost, Gradient Boosting, and Naive Bayes, alongside a deep learning (DL) approach with Recurrent Neural Networks (RNNs), we aim to enhance early detection capabilities. Rigorous experimentation and validation revealed the superior performance of the RNN model, which effectively captures complex temporal dependencies within the data. Our findings highlight the efficacy of these models in accurately predicting cardiac arrest likelihood, emphasizing the potential for improved patient care through early risk stratification and personalized interventions. By leveraging advanced analytics, healthcare providers can proactively mitigate cardiac arrest risk, optimize resource allocation, and improve patient outcomes. This research highlights the transformative potential of machine learning and deep learning techniques in managing cardiovascular risk and advances the field of predictive healthcare analytics. | 翻訳日:2024-11-06 20:16:59 公開日:2024-09-03 |
# 切り離されたマインドフルネスの計算機構
The Computational Mechanisms of Detached Mindfulness ( http://arxiv.org/abs/2409.15289v1 ) ライセンス: Link先を確認 | Brendan Conway-Smith, Robert L. West, | (参考訳) 本稿では,認知心理学における特に効果的な治療手法である,離脱マインドフルネス(detached mindfulness)として知られるメタ認知モニタリングの基盤となる計算機構について検討する。
研究は抑うつと不安を減らすために分離されたマインドフルネスの能力を強く支持する一方で、その認知と計算の基盤はほとんど説明がつかないままである。
我々はメタ認知能力の計算モデルを用いて、感情の反応性を低下させるメカニズムを明確化する。
This paper investigates the computational mechanisms underlying a type of metacognitive monitoring known as detached mindfulness, a particularly effective therapeutic technique within cognitive psychology. While research strongly supports the capacity of detached mindfulness to reduce depression and anxiety, its cognitive and computational underpinnings remain largely unexplained. We employ a computational model of metacognitive skill to articulate the mechanisms through which a detached perception of affect reduces emotional reactivity. | 翻訳日:2024-11-06 20:16:59 公開日:2024-09-03 |
# 大規模言語モデルによるエンドユーザーシミュレーションへのアクセス拡大:課題と機会
Broadening Access to Simulations for End-Users via Large Language Models: Challenges and Opportunities ( http://arxiv.org/abs/2409.15290v1 ) ライセンス: Link先を確認 | Philippe J. Giabbanelli, Jose J. Padilla, Ameeta Agrawal, | (参考訳) 大きな言語モデル(LLM)は、マーケティングで例示されるように、ユーザがシステムと対話するのを支援するインテリジェントな仮想アシスタントを作成するために、ユビキタスになりつつある。
LLMはモデリングとシミュレーション(M&S)で議論されているが、コミュニティはコードの生成や結果の説明に重点を置いてきた。
本研究では,シミュレーションにLLMを用いることで,シミュレーションへのアクセスを拡大する可能性について検討する。
具体的には,このようなエンド・ツー・エンドのシステムを3段階に分けて設計する機会と課題について論じる。
まず、いくつかのシミュレーションモデルが利用可能である一般的な場合を想定し、テキストクエリを最も関連するモデルにマッピングする。
第二に、マッピングが見つからない場合、クエリを自動的に再構成し、質問を明確にすることができる。
最後に、シミュレーション結果を生成・コンテキスト化して意思決定を行う。
このようなシステムに対する私たちのビジョンは、M&S、LLM、情報検索、倫理にまたがる長期的な研究機会を明確に示します。
Large Language Models (LLMs) are becoming ubiquitous to create intelligent virtual assistants that assist users in interacting with a system, as exemplified in marketing. Although LLMs have been discussed in Modeling & Simulation (M&S), the community has focused on generating code or explaining results. We examine the possibility of using LLMs to broaden access to simulations, by enabling non-simulation end-users to ask what-if questions in everyday language. Specifically, we discuss the opportunities and challenges in designing such an end-to-end system, divided into three broad phases. First, assuming the general case in which several simulation models are available, textual queries are mapped to the most relevant model. Second, if a mapping cannot be found, the query can be automatically reformulated and clarifying questions can be generated. Finally, simulation results are produced and contextualized for decision-making. Our vision for such system articulates long-term research opportunities spanning M&S, LLMs, information retrieval, and ethics. | 翻訳日:2024-11-06 20:16:59 公開日:2024-09-03 |
# 金融ポートフォリオ管理のための深層強化学習フレームワーク
A Deep Reinforcement Learning Framework For Financial Portfolio Management ( http://arxiv.org/abs/2409.08426v1 ) ライセンス: Link先を確認 | Jinyang Li, | (参考訳) 本稿では,「金融ポートフォリオ管理問題のための深層強化学習フレームワーク」 (arXiv:1706.10059) という論文を考察する。
ディープラーニング技術によって解決されるポートフォリオ管理の問題である。
本論文は,自己独立評価器(EIIE)トポロジ,ポートフォリオ・ベクターメモリ(PVM),オンライン確率バッチ学習(OSBL)スキーム,および完全活用かつ明示的な報酬関数からなる金融モデルフリー強化学習フレームワークを提案する。
このフレームワークを実現するために、CNN(Convolutional Neural Network)、RNN(Basic Recurrent Neural Network)、LSTM(Long Short-Term Memory)という3つの異なるインスタンスが使用される。
パフォーマンスは、最近レビューされた、または公開されたポートフォリオ選択戦略と比較することによって検証される。
私たちは彼らの実装と評価をうまく再現しました。
さらに、このフレームワークは、オリジナルの論文が使用している暗号通貨市場ではなく、株式市場にさらに適用します。
暗号通貨市場での実験は、優れたリターンを達成するオリジナルの論文と一致している。
しかし、株式市場に当てはまると、あまりうまくいきません。
In this research paper, we investigate into a paper named "A Deep Reinforcement Learning Framework for the Financial Portfolio Management Problem" [arXiv:1706.10059]. It is a portfolio management problem which is solved by deep learning techniques. The original paper proposes a financial-model-free reinforcement learning framework, which consists of the Ensemble of Identical Independent Evaluators (EIIE) topology, a Portfolio-Vector Memory (PVM), an Online Stochastic Batch Learning (OSBL) scheme, and a fully exploiting and explicit reward function. Three different instants are used to realize this framework, namely a Convolutional Neural Network (CNN), a basic Recurrent Neural Network (RNN), and a Long Short-Term Memory (LSTM). The performance is then examined by comparing to a number of recently reviewed or published portfolio-selection strategies. We have successfully replicated their implementations and evaluations. Besides, we further apply this framework in the stock market, instead of the cryptocurrency market that the original paper uses. The experiment in the cryptocurrency market is consistent with the original paper, which achieve superior returns. But it doesn't perform as well when applied in the stock market. | 翻訳日:2024-09-22 21:50:24 公開日:2024-09-03 |
# 極小基礎モデルとしての畳み込みネットワーク:ビジュアル・プロンプティングと理論的展望
Convolutional Networks as Extremely Small Foundation Models: Visual Prompting and Theoretical Perspective ( http://arxiv.org/abs/2409.10555v1 ) ライセンス: Link先を確認 | Jianqiao Wangni, | (参考訳) 特定のタスクのためにトレーニングされたディープニューラルネットワークと比較して、ImageNet分類や大規模データセットのメリット、より単純なネットワーク構造、より簡単なトレーニングテクニックといった、一般的なデータセットに基づいてトレーニングされた基礎的なディープネットワークがある。
本稿では,汎用的なディープネットワークを新たなタスクに適応させるプロンプトモジュールを設計する。
学習理論によって駆動され、同じトレーニングエラーの下でより良く一般化されるように、可能な限りシンプルなモジュールを誘導する。
実験にはビデオオブジェクトセグメンテーションのケーススタディを用いる。
我々は、相関フィルタ、ランダムフォレスト、画像誘導フィルタなどの非パラメトリックな手法と、ImageNet分類タスクのために訓練されたディープネットワークを組み合わせた、具体的なプロンプトモジュールであるセミパラメトリックディープフォレスト(SDForest)を提供する。
学習理論の観点からは、これらのモデルはすべてVCの次元や複雑さが著しく小さいので、実験的な研究から、この単純なアンサンブルのトレーニングエラーがエンドツーエンドの訓練されたディープネットワークから同等の結果が得られることが示される限り、より一般化する傾向にある。
また,ビデオオブジェクトセグメンテーションの設定下での一般化を解析し,より厳密にする手法を提案する。
実際、SDForestは計算コストが極端に低く、CPUでもリアルタイムに実現できる。
DAVIS2016とDAVIS2017では、トレーニングや微調整なしに、純粋に深層学習アプローチでビデオオブジェクトセグメンテーションタスクをテストし、競争性能を達成する。
Comparing to deep neural networks trained for specific tasks, those foundational deep networks trained on generic datasets such as ImageNet classification, benefits from larger-scale datasets, simpler network structure and easier training techniques. In this paper, we design a prompting module which performs few-shot adaptation of generic deep networks to new tasks. Driven by learning theory, we derive prompting modules that are as simple as possible, as they generalize better under the same training error. We use a case study on video object segmentation to experiment. We give a concrete prompting module, the Semi-parametric Deep Forest (SDForest) that combines several nonparametric methods such as correlation filter, random forest, image-guided filter, with a deep network trained for ImageNet classification task. From a learning-theoretical point of view, all these models are of significantly smaller VC dimension or complexity so tend to generalize better, as long as the empirical studies show that the training error of this simple ensemble can achieve comparable results from a end-to-end trained deep network. We also propose a novel methods of analyzing the generalization under the setting of video object segmentation to make the bound tighter. In practice, SDForest has extremely low computation cost and achieves real-time even on CPU. We test on video object segmentation tasks and achieve competitive performance at DAVIS2016 and DAVIS2017 with purely deep learning approaches, without any training or fine-tuning. | 翻訳日:2024-09-22 21:22:31 公開日:2024-09-03 |
# 単一分散分散(DDD)レジャーのマルチレベル検証
Multilevel Verification on a Single Digital Decentralized Distributed (DDD) Ledger ( http://arxiv.org/abs/2409.11410v1 ) ライセンス: Link先を確認 | Ayush Thada, Aanchal Kandpal, Dipanwita Sinha Mukharjee, | (参考訳) 本稿では、ブロックチェーンのような分散分散デジタル(DDD)台帳をマルチレベル検証で使用するためのアプローチを提案する。
Blockchainのような通常のDDD台帳では、単一のレベルの検証しか利用できないため、階層構造があり、各レベルに検証が必要なシステムでは役に立たない。
階層が自然に出現するシステムでは、システムの問題に対するソリューションに階層を組み込むことで、より良いソリューションを思いつくことができます。
階層化の導入は、階層内の複数のレベルと複数のレベルの検証が可能であることを意味しており、階層内の与えられたレベルによる以前の階層レベルの作業の検証など、対処する必要のあるさまざまな階層間の相互作用によって引き起こされる他の課題を意味する。
本論文は,これらすべての問題に対処し,任意の時刻におけるシステムの状態とシステム障害の確率をトレースするロードマップを提供する。
This paper presents an approach to using decentralized distributed digital (DDD) ledgers like blockchain with multi-level verification. In regular DDD ledgers like Blockchain, only a single level of verification is available, which makes it not useful for those systems where there is a hierarchy and verification is required on each level. In systems where hierarchy emerges naturally, the inclusion of hierarchy in the solution for the problem of the system enables us to come up with a better solution. Introduction to hierarchy means there could be several verification within a level in the hierarchy and more than one level of verification, which implies other challenges induced by an interaction between the various levels of hierarchies that also need to be addressed, like verification of the work of the previous level of hierarchy by given level in the hierarchy. The paper will address all these issues, and provide a road map to trace the state of the system at any given time and probability of failure of the system. | 翻訳日:2024-09-22 21:12:27 公開日:2024-09-03 |
# AIvril:AI駆動のRTL生成をオンザループで検証する
AIvril: AI-Driven RTL Generation With Verification In-The-Loop ( http://arxiv.org/abs/2409.11411v1 ) ライセンス: Link先を確認 | Mubashir ul Islam, Humza Sami, Pierre-Emmanuel Gaillardon, Valerio Tenace, | (参考訳) LLM(Large Language Models)は、複雑な自然言語処理タスクを実行できる計算モデルである。
これらの機能を活用して、LLMはハードウェア設計スタック全体を変革する可能性を秘めており、近い将来、フロントエンドとバックエンドのタスクが完全に自動化される可能性があることを予測している。
現在、LLMはレジスタ転送レベル(RTL)生成の合理化、効率の向上、イノベーションの加速において大きな可能性を秘めている。
しかし、その確率論的性質は、信頼性と精度が不可欠であるRTL設計において重大な欠点である不正確なものになりがちである。
これらの課題に対処するため,本論文では,RTL対応LLMの精度と信頼性を高めるための高度なフレームワークであるAIvrilを紹介する。
AIvrilは自動構文修正と機能検証のために,マルチエージェントのLLM非依存システムを採用しています。
VerilogEval-Humanデータセットで実施された実験結果から,我々のフレームワークは,検証対象を満たす上で88.46%の成功率を達成する一方で,従来の作業に比べてコード品質を約2倍向上させることがわかった。
これは、ハードウェア設計ワークフローの自動化と最適化に向けた重要なステップであり、AI駆動のRTL設計のためのより信頼性の高い方法論を提供する。
Large Language Models (LLMs) are computational models capable of performing complex natural language processing tasks. Leveraging these capabilities, LLMs hold the potential to transform the entire hardware design stack, with predictions suggesting that front-end and back-end tasks could be fully automated in the near future. Currently, LLMs show great promise in streamlining Register Transfer Level (RTL) generation, enhancing efficiency, and accelerating innovation. However, their probabilistic nature makes them prone to inaccuracies - a significant drawback in RTL design, where reliability and precision are essential. To address these challenges, this paper introduces AIvril, an advanced framework designed to enhance the accuracy and reliability of RTL-aware LLMs. AIvril employs a multi-agent, LLM-agnostic system for automatic syntax correction and functional verification, significantly reducing - and in many cases, completely eliminating - instances of erroneous code generation. Experimental results conducted on the VerilogEval-Human dataset show that our framework improves code quality by nearly 2x when compared to previous works, while achieving an 88.46% success rate in meeting verification objectives. This represents a critical step toward automating and optimizing hardware design workflows, offering a more dependable methodology for AI-driven RTL design. | 翻訳日:2024-09-22 21:12:27 公開日:2024-09-03 |
# 次世代ルーティングシステムに向けた3つのピラー
Three Pillars Towards Next-Generation Routing System ( http://arxiv.org/abs/2409.11412v1 ) ライセンス: Link先を確認 | Lei Li, Mengxuan Zhang, Zizhuo Xu, Yehong Xu, XIaofang Zhou, | (参考訳) ルーティングの結果は、輸送効率においてますます重要な役割を担っているが、交通渋滞を無意識に発生させる可能性がある。
これは、現在のルーティングパラダイムにおいて、トラフィック条件とルーティングシステムが接続されていないコンポーネントであるためである。
本稿では,ルーティング結果の影響をリアルタイムに考慮し,交通渋滞を低減できる次世代ルーティングパラダイムを提案する。
具体的には、ルーティング結果を将来のトラフィックフローの根本原因とみなし、同時に交通条件の根本原因とみなす。
このようなシステムを実装するために,我々は3つの重要な構成要素を同定する。
1) 交通流と交通条件の関係を確証された精度で確立する交通条件シミュレーション
2 動的経路更新による効率的なシミュレーションを支援する将来の経路管理
3)全体輸送システムの効率を向上するグローバルルーティング最適化。
予備設計と実験結果を示し、対応する課題と研究の方向性についても論じる。
The routing results are playing an increasingly important role in transportation efficiency, but they could generate traffic congestion unintentionally. This is because the traffic condition and routing system are disconnected components in the current routing paradigm. In this paper, we propose a next-generation routing paradigm that could reduce traffic congestion by considering the influence of the routing results in real-time. Specifically, we regard the routing results as the root cause of the future traffic flow, which at the same time is identified as the root cause of traffic conditions. To implement such a system, we identify three essential components: 1) the traffic condition simulation that establishes the relation between traffic flow and traffic condition with guaranteed accuracy; 2) the future route management that supports efficient simulation with dynamic route update; 3) the global routing optimization that improves the overall transportation system efficiency. Preliminary design and experimental results will be presented, and the corresponding challenges and research directions will also be discussed. | 翻訳日:2024-09-22 21:12:27 公開日:2024-09-03 |
# bwLehrpoolとbwForCluster NEMOの例によるネットワークブートLinuxシステムのセキュア化
Securing Network-Booting Linux Systems at the Example of bwLehrpool and bwForCluster NEMO ( http://arxiv.org/abs/2409.11413v1 ) ライセンス: Link先を確認 | Simon Moser, | (参考訳) Baden-W\"urttemberg大学は、コンピュータラボやデータセンターなどのサービスにステートレスシステムリモートブートを使用している。
ネットワーク上にホストシステムをロードし、ユーザがさまざまな仮想マシンを起動できるようにする。
ファイルシステムは、分散ネットワークブロックデバイス(dnbd3)上に実装された読み取り専用である。
このプロセスは、潜在的に信頼できないネットワークによるセキュリティ上の懸念を提起する。
本研究の目的は,サーバ指向のアイデンティティ,機密性,画像の信頼性を重視し,ネットワーク内の信頼を確立することである。
Secure BootとiPXE署名を使用することで、完全なブートプロセスに対して整合性を保証することができる。
実装に必要な労力は、主にサーバのセットアップ時に1回ですが、クライアントに一度必要な変更は、ネットワーク上で行うことができます。
その後、メイン技術のブートプロセスにおいて大きな遅延は測定されなかったが、カーネルを他のファイルと統合する技術は小さな遅延を計測した。
TPMは、クライアントのアイデンティティと機密性を保証するために使用することができる。
安全な媒体を使うことの不便さと、安全でないチャネルを一度使うことの容易さとの間にトレードオフが生じる必要があるため、TPMのプロビジョニングは大きな課題である。
さらに、データセンターのユースケースでは、TPM付きハードウェアはコストが高くなる可能性があるが、現在のキーストレージから変更することによって得られるセキュリティはわずかである。
プロビジョニングが完了すると、TPMを使用してセキュアに格納されたキーで情報を復号することができる。
The universities of Baden-W\"urttemberg are using stateless system remote boot for services such as computer labs and data centers. It involves loading a host system over the network and allowing users to start various virtual machines. The filesystem is provided over a distributed network block device (dnbd3) mounted read-only. The process raises security concerns due to potentially untrusted networks. The aim of this work is to establish trust within this network, focusing on server-client identity, confidentiality and image authenticity. Using Secure Boot and iPXE signing, the integrity can be guaranteed for the complete boot process. The necessary effort to implement it is mainly one time at the set-up of the server, while the changes necessary once to the client could be done over the network. Afterwards, no significant delay was measured in the boot process for the main technologies, while the technique of integrating the kernel with other files resulted in a small delay measured. TPM can be used to ensure the client's identity and confidentiality. Provisioning TPM is a bigger challenge because as a trade-off has to be made between the inconvenience of using a secure medium and the ease of using an insecure channel once. Additionally, in the data center use case, hardware with TPM might have higher costs, while the additional security gained by changing from the current key storage is only little. After the provisioning is completed, the TPM can then be used to decrypt information with a securely stored key. | 翻訳日:2024-09-22 21:12:27 公開日:2024-09-03 |
# LifeGPT:Topology-Agnostic Generative Pretrained Transformer Model for Cellular Automata
LifeGPT: Topology-Agnostic Generative Pretrained Transformer Model for Cellular Automata ( http://arxiv.org/abs/2409.12182v1 ) ライセンス: Link先を確認 | Jaime A. Berkovich, Markus J. Buehler, | (参考訳) 生命のゲーム(人生のゲーム)は、細胞オートマトン(CA)のより広範なクラスにおいてよく知られたアルゴリズムであり、初期状態に非常に敏感な複雑な創発的ダイナミクスを示す。
このような複雑な振る舞いをシステムの基盤となるトポロジの明確な知識なしにモデル化し予測することは、様々なグリッド構成や境界条件をまたいで一般化できるアルゴリズムの開発を動機付ける重要な課題となる。
この問題を解決するために,デコーダのみを用いた事前学習型トランスモデルを構築し,グリッドの大きさや周期境界条件(LifeGPT)について事前知識のないトロイダルグリッド上でのライフをシミュレートできることを示した。
LifeGPTはトレーニングデータに対してトポロジに非依存であり,本研究の結果から,GPTモデルがチューリング完全系の決定論的ルールを十分多種多様なトレーニングデータからほぼ完全精度で把握できることが示唆された。
また,LifeGPTを用いてライフを再帰的に実装する「自己回帰型自己回帰器」のアイデアも紹介する。
この結果から,大規模言語モデル(LLM)フレームワーク内での真の普遍計算への道のり,自然言語処理による数学的解析の合成,そしてそのようなアルゴリズムの進化に対する状況認識のためのAIシステムを提案する。
同様のGPTは、実際の生物学的システムからCA互換のルールセットを抽出して新しい予測モデルを作成することで、多細胞自己集合における逆問題を解決する可能性がある。
The Game of Life (Life), a well known algorithm within the broader class of cellular automata (CA), exhibits complex emergent dynamics, with extreme sensitivity to initial conditions. Modeling and predicting such intricate behavior without explicit knowledge of the system's underlying topology presents a significant challenge, motivating the development of algorithms that can generalize across various grid configurations and boundary conditions. We develop a decoder-only generative pretrained transformer model to solve this problem, showing that our model can simulate Life on a toroidal grid with no prior knowledge on the size of the grid, or its periodic boundary conditions (LifeGPT). LifeGPT is topology-agnostic with respect to its training data and our results show that a GPT model is capable of capturing the deterministic rules of a Turing-complete system with near-perfect accuracy, given sufficiently diverse training data. We also introduce the idea of an `autoregressive autoregressor' to recursively implement Life using LifeGPT. Our results pave the path towards true universal computation within a large language model (LLM) framework, synthesizing of mathematical analysis with natural language processing, and probing AI systems for situational awareness about the evolution of such algorithms without ever having to compute them. Similar GPTs could potentially solve inverse problems in multicellular self-assembly by extracting CA-compatible rulesets from real-world biological systems to create new predictive models, which would have significant consequences for the fields of bioinspired materials, tissue engineering, and architected materials design. | 翻訳日:2024-09-22 21:12:27 公開日:2024-09-03 |
# 物理インフォームドニューラルネットワークを用いた表面フラックス輸送モデリング
Surface Flux Transport Modelling using Physics Informed Neural Networks ( http://arxiv.org/abs/2409.01744v1 ) ライセンス: Link先を確認 | Jithu J Athalathil, Bhargav Vaidya, Sayan Kundu, Vishal Upendran, Mark C. M. Cheung, | (参考訳) 太陽表面の磁場特性を研究することは、太陽活動と太陽圏活動を理解するために重要である。
表面フラックス輸送(SFT)モデリングは、太陽表面における磁束の輸送と進化をシミュレートし分析し、太陽活動に関与するメカニズムに関する貴重な洞察を提供する。
本研究では,磁束輸送の解法における機械学習の応用を実証し,その精度を検証した。
我々は,SFTを用いたバイポーラ磁気領域(BMR)の1次元方位平均および2次元の進化を研究するために,新しい物理情報ニューラルネットワーク(PINN)モデルを開発した。
本稿では,RK-IMEX(Runge-Kutta Implicit-Explicit)方式を用いて実装した数値モデルと,その性能と精度を比較し,PINNモデルの有効性を実証する。
メッシュ非依存のPINN法は、観測された極磁場をより優れたフラックス保存で再現することができる。
この進歩は観測された極磁場を正確に再現するために重要であり、将来の太陽周期の強さに関する洞察を与える。
この研究は、太陽磁束輸送のより効率的で正確なシミュレーションの道を開き、特にヘリオ物理に焦点を当てた対流拡散方程式の解法におけるPINNの適用性を示す。
Studying the magnetic field properties on the solar surface is crucial for understanding the solar and heliospheric activities, which in turn shape space weather in the solar system. Surface Flux Transport (SFT) modelling helps us to simulate and analyse the transport and evolution of magnetic flux on the solar surface, providing valuable insights into the mechanisms responsible for solar activity. In this work, we demonstrate the use of machine learning techniques in solving magnetic flux transport, making it accurate. We have developed a novel Physics-Informed Neural Networks (PINNs)-based model to study the evolution of Bipolar Magnetic Regions (BMRs) using SFT in one-dimensional azimuthally averaged and also in two-dimensions. We demonstrate the efficiency and computational feasibility of our PINNs-based model by comparing its performance and accuracy with that of a numerical model implemented using the Runge-Kutta Implicit-Explicit (RK-IMEX) scheme. The mesh-independent PINNs method can be used to reproduce the observed polar magnetic field with better flux conservation. This advancement is important for accurately reproducing observed polar magnetic fields, thereby providing insights into the strength of future solar cycles. This work paves the way for more efficient and accurate simulations of solar magnetic flux transport and showcases the applicability of PINNs in solving advection-diffusion equations with a particular focus on heliophysics. | 翻訳日:2024-09-15 05:46:11 公開日:2024-09-03 |
# 産業振動信号解析のための大規模マルチモーダル基礎モデルのパイプラインVSLLaVA
VSLLaVA: a pipeline of large multimodal foundation model for industrial vibration signal analysis ( http://arxiv.org/abs/2409.07482v1 ) ライセンス: Link先を確認 | Qi Li, Jinfeng Huang, Hongliang He, Xinran Zhang, Feibin Zhang, Zhaoye Qin, Fulei Chu, | (参考訳) 大規模なマルチモーダル基礎モデルは、指示によって導かれる画像認識タスクに広く利用されているが、産業振動信号解析における領域の専門知識は乏しい。
本稿では,信号パラメータの同定と故障の診断に専門家の知識を統合するために,大規模言語モデルを活用したVSLLaVAというパイプラインを提案する。
このパイプライン内では、まず専門家によるルール支援信号生成装置を導入する。
このジェネレータは、ドメイン固有のパラメータ識別と故障診断問合せペアを用いて振動解析の専門家が提供した信号をマージして、信号問合せ三重項を構築する。
次に、これらの三重項を用いて、コントラスト言語-画像事前学習(CLIP)と大規模言語モデルの線形層を微調整し、マルチモーダル信号処理の知識を注入する低ランク適応手法を適用する。
最後に, 各種信号パラメータの同定, 解析, 故障診断における性能向上を図り, 応答精度と妥当性を評価するため, 大規模言語モデルとエキスパートルールの組み合わせにより, 微調整モデルを評価した。
これらの拡張は、将来の産業信号分析と監視のための基盤モデルを構築するためのパイプラインの可能性を示している。
Large multimodal foundation models have been extensively utilized for image recognition tasks guided by instructions, yet there remains a scarcity of domain expertise in industrial vibration signal analysis. This paper presents a pipeline named VSLLaVA that leverages a large language model to integrate expert knowledge for identification of signal parameters and diagnosis of faults. Within this pipeline, we first introduce an expert rule-assisted signal generator. The generator merges signal provided by vibration analysis experts with domain-specific parameter identification and fault diagnosis question-answer pairs to build signal-question-answer triplets. Then we use these triplets to apply low-rank adaptation methods for fine-tuning the linear layers of the Contrastive Language-Image Pretraining (CLIP) and large language model, injecting multimodal signal processing knowledge. Finally, the fine-tuned model is assessed through the combined efforts of large language model and expert rules to evaluate answer accuracy and relevance, which showcases enhanced performance in identifying, analyzing various signal parameters, and diagnosing faults. These enhancements indicate the potential of this pipeline to build a foundational model for future industrial signal analysis and monitoring. | 翻訳日:2024-09-15 05:01:16 公開日:2024-09-03 |
# FORS-EMG: 複数の前腕方向のハンドジェスチャ認識のための新しいSEMGデータセット
FORS-EMG: A Novel sEMG Dataset for Hand Gesture Recognition Across Multiple Forearm Orientations ( http://arxiv.org/abs/2409.07484v1 ) ライセンス: Link先を確認 | Umme Rumman, Arifa Ferdousi, Md. Sazzad Hossain, Md. Johirul Islam, Shamim Ahmad, Mamun Bin Ibne Reaz, Md. Rezaul Islam, | (参考訳) 表面筋電図(sEMG)信号はジェスチャー認識の研究や頑健な義手の開発において大きな可能性を秘めている。
しかし、sEMG信号は、前腕方向、電極変位、手足の位置など、生理的・動的要因によって損なわれている。
既存のsEMGのデータセットは、記録中にこれらの動的要因を無視することが多いため、制限されている。
本稿では,3つの前腕方向で行う日常生活動作を評価するために,多チャンネルsEMG信号のデータセットを提案する。
このデータセットは、19名の健常者から収集され、刺激、安静、プロネーションの3つの前腕方向で12回の手振りを行い、さらに、sEMG信号を記録しながら2つの電極配置位置(肘と前腕)を考慮に入れた。
データセットは、MATLABファイルフォーマットでパブリックアクセス可能である。
このデータセットの主な目的は、堅牢な機械学習分類アルゴリズムと手動ジェスチャー認識アプリケーションを開発するための広範なリソースを提供することである。
我々は,一般的な機械学習アルゴリズム,各種特徴抽出手法,可変ウィンドウサイズを用いて,信号品質の行列と分類性能を評価することにより,データセットの品質を検証した。
その結果,手ジェスチャー認識システムの開発,sEMGの臨床研究,人-コンピュータインタラクションアプリケーション開発のためのベンチマークとして使用可能な,新しいsEMGデータセットの有意な可能性を浮き彫りにした。
Dataset:https://www.kaggle.com/datasets/ummerummanchaity/fors-emg-a-novel-semg-dataset/data
Surface electromyography (sEMG) signal holds great potential in the research fields of gesture recognition and the development of robust prosthetic hands. However, the sEMG signal is compromised with physiological or dynamic factors such as forearm orientations, electrode displacement, limb position, etc. The existing dataset of sEMG is limited as they often ignore these dynamic factors during recording. In this paper, we have proposed a dataset of multichannel sEMG signals to evaluate common daily living hand gestures performed with three forearm orientations. The dataset is collected from nineteen intact-limed subjects, performing twelve hand gestures with three forearm orientations: supination, rest, and pronation.Additionally, two electrode placement positions (elbow and forearm) are considered while recording the sEMG signal. The dataset is open for public access in MATLAB file format. The key purpose of the dataset is to offer an extensive resource for developing a robust machine learning classification algorithm and hand gesture recognition applications. We validated the high quality of the dataset by assessing the signal quality matrices and classification performance, utilizing popular machine learning algorithms, various feature extraction methods, and variable window size. The obtained result highlighted the significant potential of this novel sEMG dataset that can be used as a benchmark for developing hand gesture recognition systems, conducting clinical research on sEMG, and developing human-computer interaction applications. Dataset:https://www.kaggle.com/datasets/ummerummanchaity/fors-emg-a-novel-semg-dataset/data | 翻訳日:2024-09-15 05:01:16 公開日:2024-09-03 |
# 低出力ウェアラブルをターゲットにしたPSGに基づく血圧推定のためのディープニューラルネットワークの最適化と展開
Optimization and Deployment of Deep Neural Networks for PPG-based Blood Pressure Estimation Targeting Low-power Wearables ( http://arxiv.org/abs/2409.07485v1 ) ライセンス: Link先を確認 | Alessio Burrello, Francesco Carlucci, Giovanni Pollo, Xiaying Wang, Massimo Poncino, Enrico Macii, Luca Benini, Daniele Jahier Pagliari, | (参考訳) PPGをベースとした血圧推定(BP)は、ウェアラブルなどの低消費電力デバイスにおいて難しい生体信号処理タスクである。
このタスクのために訓練された最先端のDeep Neural Networks(DNN)は、PG-to-BP信号-信号-信号再構成またはスカラーBP値回帰を実装しており、最大かつ最も複雑な公開データセット上で古典的な手法より優れていることが示されている。
しかしながら、これらのモデルは、利用可能なメモリを超えるか、高レイテンシとエネルギー消費をもたらす、ウェアラブルデプロイメントのための過剰なパラメータストレージや計算作業を必要とすることが多い。
本研究では,超低消費電力マルチコアシステム・オン・チップ(SoC)のGAP8上に展開可能な,高精度で軽量なモデルを実現するため,HW対応ニューラルアーキテクチャ探索(NAS)と量子化を含む完全自動DNN設計パイプラインについて述べる。
4つのパブリックデータセット上での回帰モデルと信号-信号状態モデルの両方から始め、最大4.99%のエラー、73.36%のエラーを達成できる最適化されたバージョンを得る。
注目すべきなのは、最大のデータセット上の最も正確なSoAネットワークはGAP8メモリに適合しないことだ。
PPG-based Blood Pressure (BP) estimation is a challenging biosignal processing task for low-power devices such as wearables. State-of-the-art Deep Neural Networks (DNNs) trained for this task implement either a PPG-to-BP signal-to-signal reconstruction or a scalar BP value regression and have been shown to outperform classic methods on the largest and most complex public datasets. However, these models often require excessive parameter storage or computational effort for wearable deployment, exceeding the available memory or incurring too high latency and energy consumption. In this work, we describe a fully-automated DNN design pipeline, encompassing HW-aware Neural Architecture Search (NAS) and Quantization, thanks to which we derive accurate yet lightweight models, that can be deployed on an ultra-low-power multicore System-on-Chip (SoC), GAP8. Starting from both regression and signal-to-signal state-of-the-art models on four public datasets, we obtain optimized versions that achieve up to 4.99% lower error or 73.36% lower size at iso-error. Noteworthy, while the most accurate SoA network on the largest dataset can not fit the GAP8 memory, all our optimized models can; our most accurate DNN consumes as little as 0.37 mJ while reaching the lowest MAE of 8.08 on Diastolic BP estimation. | 翻訳日:2024-09-15 05:01:16 公開日:2024-09-03 |
# 希少なMIP課題解決のための大規模言語モデルの活用
Leveraging Large Language Models for Solving Rare MIP Challenges ( http://arxiv.org/abs/2409.04464v1 ) ライセンス: Link先を確認 | Teng Wang, Wing-Yin Yu, Ruifeng She, Wenhan Yang, Taijie Chen, Jianping Zhang, | (参考訳) MIP(Mixed Integer Programming)は、数学的な解法が厳密な時間制約の中で複雑なインスタンスに対処する必要がある領域で広く適用されている。
しかし、問題スケールが大きくなるにつれて、モデル定式化と実現可能な解の発見の複雑さは著しく増大する。
対照的に、大規模言語モデル(LLM)のようなエンド・ツー・エンドモデルのモデル構築コストは、パターン認識能力による問題スケールの影響をほとんど受けていない。
GPT-4のようなLPMは、微調整なしで、従来の中規模のMIP問題に対処できるが、通常ではない、あるいは高度に専門化されたMIPシナリオに苦しむ。
微調整LDMは中規模のMIPインスタンスに対して実現可能な解が得られるが、これらのモデルは通常、低温で一定の温度で制約された場合、様々な解を探索できず、性能が制限される。
本稿では,チェーン・オブ・シント・アプローチと統合された再帰的動的温度法を提案し,評価する。
以上の結果から,高温から徐々に低下すると,他の動的温度戦略と比較して,実現可能な解が得られることが示唆された。
また, LLM と Gurobi の結果を比較することにより, LLM が従来の解法を補完する解を生成できることを示した。
Mixed Integer Programming (MIP) has been extensively applied in areas requiring mathematical solvers to address complex instances within tight time constraints. However, as the problem scale increases, the complexity of model formulation and finding feasible solutions escalates significantly. In contrast, the model-building cost for end-to-end models, such as large language models (LLMs), remains largely unaffected by problem scale due to their pattern recognition capabilities. While LLMs, like GPT-4, without fine-tuning, can handle some traditional medium-scale MIP problems, they struggle with uncommon or highly specialized MIP scenarios. Fine-tuning LLMs can yield some feasible solutions for medium-scale MIP instances, but these models typically fail to explore diverse solutions when constrained by a low and constant temperature, limiting their performance. In this paper, we propose and evaluate a recursively dynamic temperature method integrated with a chain-of-thought approach. Our findings show that starting with a high temperature and gradually lowering it leads to better feasible solutions compared to other dynamic temperature strategies. Additionally, by comparing results generated by the LLM with those from Gurobi, we demonstrate that the LLM can produce solutions that complement traditional solvers by accelerating the pruning process and improving overall efficiency. | 翻訳日:2024-09-10 22:45:53 公開日:2024-09-03 |
# LLM時代のエージェントのセマンティックWebビジョンを実現するCharlie!
Here's Charlie! Realising the Semantic Web vision of Agents in the age of LLMs ( http://arxiv.org/abs/2409.04465v1 ) ライセンス: Link先を確認 | Jesse Wright, | (参考訳) 本稿では,個人や組織などの法的機関が,半自律型AIエージェントを委任して,オンラインインタラクションを行うための短期的展望について述べる。
著者らの研究は、システムが自律的に作業を進めるのに十分なコンテキストや自信を持っていない場合に限り、ユーザを相談する半自律的なWebエージェントの開発に関するものである。
これにより、ユーザーはエージェントに信頼する情報ソース、データ共有の好み、意思決定の好みについて教えることができる。
最終的には、LLMによって駆動されるエージェントを含むエージェントの使用の利便性を維持しながら、データと決定の制御を最大化することができる。
短期的なソリューションの開発の観点から、この研究は「Web上の個人や組織を表す半自律エージェントの信頼性が高く信頼性の高いネットワークをどのように構築するか」という疑問に答えようとしている。
キー要件を特定した後、汎用的なパーソナルアシスタントのサンプルユースケースのデモを示す。
これは、(Notation3)ルールを使用して、信念、データ共有、データ使用に関する安全保証を強制し、LLMを使用して、ユーザとの自然言語インタラクションとソフトウェアエージェント間のセレンディピティーな対話を可能にする。
This paper presents our research towards a near-term future in which legal entities, such as individuals and organisations can entrust semi-autonomous AI-driven agents to carry out online interactions on their behalf. The author's research concerns the development of semi-autonomous Web agents, which consult users if and only if the system does not have sufficient context or confidence to proceed working autonomously. This creates a user-agent dialogue that allows the user to teach the agent about the information sources they trust, their data-sharing preferences, and their decision-making preferences. Ultimately, this enables the user to maximise control over their data and decisions while retaining the convenience of using agents, including those driven by LLMs. In view of developing near-term solutions, the research seeks to answer the question: "How do we build a trustworthy and reliable network of semi-autonomous agents which represent individuals and organisations on the Web?". After identifying key requirements, the paper presents a demo for a sample use case of a generic personal assistant. This is implemented using (Notation3) rules to enforce safety guarantees around belief, data sharing and data usage and LLMs to allow natural language interaction with users and serendipitous dialogues between software agents. | 翻訳日:2024-09-10 22:45:53 公開日:2024-09-03 |
# 電力系統における状態要因と行動要因
State and Action Factorization in Power Grids ( http://arxiv.org/abs/2409.04467v1 ) ライセンス: Link先を確認 | Gianvito Losapio, Davide Beretta, Marco Mussi, Alberto Maria Metelli, Marcello Restelli, | (参考訳) ゼロエミッション目標に向けた再生可能エネルギーの増大は、電力グリッドの制御をますます困難にしている。
近年のL2RPN(Learning To Run a Power Network)コンペティションでは、電力網の運用において人間派遣者を支援するために強化学習(Reinforcement Learning, RL)の使用が奨励されている。
これまでに提案された全ての解は、作用空間を厳しく制限し、グリッド全体に作用する1つのエージェント、またはサブステーションレベルに作用する複数の独立エージェントに基づいている。
本研究では,状態と行動成分の相関関係をデータに基づいて推定するドメインに依存しないアルゴリズムを提案する。
高相関状態-作用対は、計算とデータ要求の少ない個別の学習プロセスに繋がる、より単純で、おそらくは独立したサブプロブレムを生成するためにグループ化される。
このアルゴリズムは、上記コンペを通じて使用されているGrid2Opシミュレータを用いて得られた電力グリッドベンチマークで検証され、本アルゴリズムがドメイン-エキスパート分析に適合していることが示されている。
これらの結果に基づいて,既存のソリューションを改善するために,分散強化学習の理論的基盤を構築した。
The increase of renewable energy generation towards the zero-emission target is making the problem of controlling power grids more and more challenging. The recent series of competitions Learning To Run a Power Network (L2RPN) have encouraged the use of Reinforcement Learning (RL) for the assistance of human dispatchers in operating power grids. All the solutions proposed so far severely restrict the action space and are based on a single agent acting on the entire grid or multiple independent agents acting at the substations level. In this work, we propose a domain-agnostic algorithm that estimates correlations between state and action components entirely based on data. Highly correlated state-action pairs are grouped together to create simpler, possibly independent subproblems that can lead to distinct learning processes with less computational and data requirements. The algorithm is validated on a power grid benchmark obtained with the Grid2Op simulator that has been used throughout the aforementioned competitions, showing that our algorithm is in line with domain-expert analysis. Based on these results, we lay a theoretically-grounded foundation for using distributed reinforcement learning in order to improve the existing solutions. | 翻訳日:2024-09-10 22:45:53 公開日:2024-09-03 |
# Intensional FOL: Many-Sorted Extension
Intensional FOL: Many-Sorted Extension ( http://arxiv.org/abs/2409.04469v1 ) ライセンス: Link先を確認 | Zoran Majkic, | (参考訳) IFOLで使用される概念は、それらをソートされた属性のリストに関連付けており、そのソートもインテンショナルな概念である。
未分類のIFOL(Intensional FOL)を多種多様なIFOLに拡張する要件は主に、自然言語が暗黙的に多種多様であることと、自然言語を使用するアプリケーションをサポートするためにIFOLを使用することにある。
したがって、多種多様なIFOLの提案は、IFOLの概念的特徴の完成にすぎない。
The concepts used in IFOL have associated to them a list of sorted attributes, and the sorts are the intensional concepts as well. The requirement to extend the unsorted IFOL (Intensional FOL) to many-sorted IFOL is mainly based on the fact that a natural language is implicitly many-sorted and that we intend to use IFOL to support applications that use natural languages. Thus, the proposed version of many-sorted IFOL is just the completion of this conceptual feature of the IFOL. | 翻訳日:2024-09-10 22:45:53 公開日:2024-09-03 |
# AIエージェントの保護 - 安全アーキテクチャの開発と分析
Safeguarding AI Agents: Developing and Analyzing Safety Architectures ( http://arxiv.org/abs/2409.03793v1 ) ライセンス: Link先を確認 | Ishaan Domkundwar, Mukunda N S, | (参考訳) 大規模言語モデルに特化して動作するAIエージェントは、精度と有効性が必要なさまざまなアプリケーションにおいて、例外的な能力を発揮している。
しかし、これらのエージェントには、安全でない行動や偏見のない行動の可能性、敵の攻撃に対する脆弱性、透明性の欠如、幻覚を引き起こす傾向など、固有のリスクがある。
AIエージェントが業界の重要なセクターで普及するにつれて、効果的な安全プロトコルの実装がますます重要になっている。
本稿では,AIシステム,特に人間チームと連携するシステムにおいて,安全対策の重要要件について論じる。
本稿では,LLMを用いた入出力フィルタ,システム内に組み込まれた安全エージェント,組込み安全チェックを備えた階層型デリゲートベースシステムという,AIエージェントシステムの安全性プロトコルを強化するための3つのフレームワークを提案し,評価する。
我々の方法論は、これらのフレームワークを実装し、安全でないエージェントのユースケースに対してそれらをテストすることを含み、AIエージェントのデプロイメントに関連するリスクを軽減するためのそれらの効果を包括的に評価する。
これらのフレームワークはAIエージェントシステムの安全性と安全性を大幅に強化し、潜在的有害なアクションやアウトプットを最小限にすることができると結論付けている。
我々の研究は、特に自動化されたオペレーションにおいて、安全で信頼性の高いAIアプリケーションを作成するための継続的な努力に貢献し、現実世界のアプリケーションでAIエージェントの責任を負うことを保証する堅牢なガードレールを開発するための基盤を提供する。
AI agents, specifically powered by large language models, have demonstrated exceptional capabilities in various applications where precision and efficacy are necessary. However, these agents come with inherent risks, including the potential for unsafe or biased actions, vulnerability to adversarial attacks, lack of transparency, and tendency to generate hallucinations. As AI agents become more prevalent in critical sectors of the industry, the implementation of effective safety protocols becomes increasingly important. This paper addresses the critical need for safety measures in AI systems, especially ones that collaborate with human teams. We propose and evaluate three frameworks to enhance safety protocols in AI agent systems: an LLM-powered input-output filter, a safety agent integrated within the system, and a hierarchical delegation-based system with embedded safety checks. Our methodology involves implementing these frameworks and testing them against a set of unsafe agentic use cases, providing a comprehensive evaluation of their effectiveness in mitigating risks associated with AI agent deployment. We conclude that these frameworks can significantly strengthen the safety and security of AI agent systems, minimizing potential harmful actions or outputs. Our work contributes to the ongoing effort to create safe and reliable AI applications, particularly in automated operations, and provides a foundation for developing robust guardrails to ensure the responsible use of AI agents in real-world applications. | 翻訳日:2024-09-09 17:50:10 公開日:2024-09-03 |
# 多次元空間における凸回帰:最小二乗推定器の準最適性
Convex Regression in Multidimensions: Suboptimality of Least Squares Estimators ( http://arxiv.org/abs/2006.02044v2 ) ライセンス: Link先を確認 | Gil Kur, Fuchang Gao, Adityanand Guntuboyina, Bodhisattva Sen, | (参考訳) ガウス誤差を伴う通常の非パラメトリック回帰モデルの下では、凸関数の自然部分類に対する最小正方形推定器(LSE)は、次元$d$が5以上のときの2乗誤差損失において$d$次元凸関数を推定するのに最適である。
考慮される特定の関数クラスは以下のとおりである。
(i)ポリトープでサポートされている有界凸関数(ランダム設計)
(ii)任意の凸領域(ランダムな設計で)でサポートされているリプシッツ凸関数
三 ポリトープ(固定設計)上の凸関数
これらのクラスごとに、LSEのリスクは$n^{-2/d}$(対数因子まで)であり、minimaxのリスクは$d \ge 5$であるときに$n^{-4/(d+4)}$である。
さらに、制限のない凸 LSE に対する収束結果の第一のレート (Worst case と Adaptive) は、すべての$d \geq 1$ に対してポリトープ領域の固定設計に確立される。
凸函数に対するいくつかの新しい計量エントロピーの結果も独立な興味を持つことが証明される。
Under the usual nonparametric regression model with Gaussian errors, Least Squares Estimators (LSEs) over natural subclasses of convex functions are shown to be suboptimal for estimating a $d$-dimensional convex function in squared error loss when the dimension $d$ is 5 or larger. The specific function classes considered include: (i) bounded convex functions supported on a polytope (in random design), (ii) Lipschitz convex functions supported on any convex domain (in random design), (iii) convex functions supported on a polytope (in fixed design). For each of these classes, the risk of the LSE is proved to be of the order $n^{-2/d}$ (up to logarithmic factors) while the minimax risk is $n^{-4/(d+4)}$, when $d \ge 5$. In addition, the first rate of convergence results (worst case and adaptive) for the unrestricted convex LSE are established in fixed-design for polytopal domains for all $d \geq 1$. Some new metric entropy results for convex functions are also proved which are of independent interest. | 翻訳日:2024-09-07 07:35:31 公開日:2024-09-03 |
# Proof-of-Refundable-Tax Consensusアルゴリズムに基づく二重リンクブロックチェーンアプローチ
A Double-Linked Blockchain Approach Based on Proof-of-Refundable-Tax Consensus Algorithm ( http://arxiv.org/abs/2109.06520v2 ) ライセンス: Link先を確認 | Zheng-Xun Jiang, Ren-Song Tsay, | (参考訳) 本稿では,ブロックチェーンのパフォーマンスを大幅に向上し,フォークのない単一チェーンを保証する,二重リンク型ブロックチェーンデータ構造を提案する。
さらに、提案した返金可能税(PoRT)コンセンサスアルゴリズムにより、信頼性が高く、効率的で、公正で安定したブロックチェーン操作を構築することができる。
PoRTアルゴリズムはマイニングの代わりに検証可能なランダム関数を採用し、各参加者の個人返済可能税に比例する確率で将来のブロックメンテナを選択する。
個人の返済可能な税は参加活動の指標となり、PoRTはシビル攻撃を効果的に防ぐことができる。
また、各メンテナの返済可能な税から控除されたブロック補完報酬によって、ブロックチェーンシステムは安定した富の分配を維持し、"よりリッチになる"問題を回避します。
このアプローチを実装し、非常に有望な結果でテストしました。
In this paper we propose a double-linked blockchain data structure that greatly improves blockchain performance and guarantees single chain with no forks. Additionally, with the proposed proof-of-refundable-tax (PoRT) consensus algorithm, our approach can construct highly reliable, efficient, fair and stable blockchain operations. The PoRT algorithm adopts a verifiable random function instead of mining to select future block maintainers with the probability proportional to each participant's personal refundable tax. The individual refundable tax serves as an index of the activeness of participation and hence PoRT can effectively prevent Sybil attacks. Also, with the block-completion reward deducted from each maintainer's refundable tax, our blockchain system maintains a stable wealth distribution and avoids the "rich become richer" problem. We have implemented the approach and tested with very promising results. | 翻訳日:2024-09-07 07:30:16 公開日:2024-09-03 |
# ゲートベース量子シミュレーションのプラットフォーム化された共設計
Platform tailored co-design of gate-based quantum simulation ( http://arxiv.org/abs/2111.00024v2 ) ライセンス: Link先を確認 | Kushal Seetharam, Dries Sels, Eugene Demler, | (参考訳) 短期的な量子コンピュータとシミュレータのユーティリティは、ソフトウェアハードウェアの共同設計に依存し、エラー認識アルゴリズムとプロトコルが実行中のプラットフォームに最適化されている可能性が高い。
本稿では,ゲート型量子シミュレーションアルゴリズムの設計を改善するために,システム内のノイズの知識をどのように活用するかを示す。
我々は、ハイゼンベルクスピンモデルの力学の捕捉されたイオン量子シミュレーションの文脈において、この共設計を具体的に示す。
具体的には、イオンの集合運動の加熱による一様ゲート誤差を記述する理論的ノイズモデルを作成し、ノイズの時間的相関が最適なゲート深さを誘導することを示した。
次に,一意ゲート誤差を軽減し,シミュレーション結果を改善するために,フィードフォワード制御の調整方法を紹介する。
本結果はゲートベース量子シミュレーションアルゴリズムの共設計の実践的ガイドを提供する。
The utility of near-term quantum computers and simulators is likely to rely upon software-hardware co-design, with error-aware algorithms and protocols optimized for the platforms they are run on. Here, we show how knowledge of noise in a system can be exploited to improve the design of gate-based quantum simulation algorithms. We concretely demonstrate this co-design in the context of a trapped ion quantum simulation of the dynamics of a Heisenberg spin model. Specifically, we derive a theoretical noise model describing unitary gate errors due to heating of the ions' collective motion, finding that the temporal correlations in the noise induce an optimal gate depth. We then illustrate how tailored feedforward control can be used to mitigate unitary gate errors and improve the simulation outcome. Our results provide a practical guide to the co-design of gate-based quantum simulation algorithms. | 翻訳日:2024-09-07 07:30:16 公開日:2024-09-03 |
# 制御バリア関数を用いた逐次確率論的オンライン学習
Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions ( http://arxiv.org/abs/2208.10733v3 ) ライセンス: Link先を確認 | Fernando Castañeda, Jason J. Choi, Wonsuhk Jung, Bike Zhang, Claire J. Tomlin, Koushil Sreenath, | (参考訳) 学習に基づく制御は、最近、様々なアプリケーションで複雑なタスクを実行する上で大きな効果を示している。
しかし、実際のシステムにデプロイするには、システムが安全であることを保証することが不可欠である。
制御バリア関数(CBF)は、既知のダイナミクスを持つシステムの安全保存コントローラを設計するための数学的ツールを提供する。
本稿では、まず、ガウス過程(GP)回帰を用いたCBFベースの安全クリティカルコントローラのモデル不確実性を考慮した再構成を導入し、近似数学モデルと実システムとのギャップを埋め、第二次コーンプログラム(SOCP)ベースの制御設計をもたらす。
次に,得られた安全制御器のポイントワイズ実現可能性条件を提示し,安全確保のために利用可能なシステム情報が満たさなければならない富のレベルを強調した。
我々は、これらの条件を用いて、学習した安全コントローラの再帰可能性を保証する、イベントトリガーによるオンラインデータ収集戦略を考案する。
本手法は, 安全を確保するのに現在の情報が十分かどうか, あるいは, 不確実性を低減するために, アクティブセーフ探査における新しい測定が必要であるかどうかを常に推論することによって機能する。
その結果,提案フレームワークは,事前未探索領域を含む場合でも,CBFが定義した安全集合の前方不変性を高い確率で保証することができる。
提案手法を2つの数値シミュレーション実験で検証した。
Learning-based control has recently shown great efficacy in performing complex tasks for various applications. However, to deploy it in real systems, it is of vital importance to guarantee the system will stay safe. Control Barrier Functions (CBFs) offer mathematical tools for designing safety-preserving controllers for systems with known dynamics. In this article, we first introduce a model-uncertainty-aware reformulation of CBF-based safety-critical controllers using Gaussian Process (GP) regression to close the gap between an approximate mathematical model and the real system, which results in a second-order cone program (SOCP)-based control design. We then present the pointwise feasibility conditions of the resulting safety controller, highlighting the level of richness that the available system information must meet to ensure safety. We use these conditions to devise an event-triggered online data collection strategy that ensures the recursive feasibility of the learned safety controller. Our method works by constantly reasoning about whether the current information is sufficient to ensure safety or if new measurements under active safe exploration are required to reduce the uncertainty. As a result, our proposed framework can guarantee the forward invariance of the safe set defined by the CBF with high probability, even if it contains a priori unexplored regions. We validate the proposed framework in two numerical simulation experiments. | 翻訳日:2024-09-07 07:20:22 公開日:2024-09-03 |
# 表情認識のための学習パラダイムの再考
Rethinking the Learning Paradigm for Facial Expression Recognition ( http://arxiv.org/abs/2209.15402v2 ) ライセンス: Link先を確認 | Weijie Wang, Nicu Sebe, Bruno Lepri, | (参考訳) 顔表情の主観的なクラウドソーシングアノテーションとクラス間類似性のため、実世界の顔表情認識(FER)データセットは通常曖昧なアノテーションを示す。
学習パラダイムを単純化するために、従来のほとんどの手法は曖昧なアノテーション結果を正確に1ホットのアノテーションに変換し、エンドツーエンドの教師付き方法でFERモデルを訓練した。
本稿では、既存のトレーニングパラダイムを再考し、弱教師付き戦略を用いて、オリジナルの曖昧なアノテーションでFERモデルをトレーニングする方がよいと提案する。
Due to the subjective crowdsourcing annotations and the inherent inter-class similarity of facial expressions, the real-world Facial Expression Recognition (FER) datasets usually exhibit ambiguous annotation. To simplify the learning paradigm, most previous methods convert ambiguous annotation results into precise one-hot annotations and train FER models in an end-to-end supervised manner. In this paper, we rethink the existing training paradigm and propose that it is better to use weakly supervised strategies to train FER models with original ambiguous annotation. | 翻訳日:2024-09-07 07:20:22 公開日:2024-09-03 |
# 公共放送による信用・最適オークション
Credible, Optimal Auctions via Public Broadcast ( http://arxiv.org/abs/2301.12532v2 ) ライセンス: Link先を確認 | Tarun Chitra, Matheus V. X. Ferreira, Kshitij Kulkarni, | (参考訳) 我々は、公開ブロックチェーン上で実装できるような検閲耐性のある放送チャンネル上で、エージェントが通信可能な環境でのオークション設計について研究する。
我々は,従来の機構設計の枠組みとは異なるモデルで,信頼性の高い,戦略的なオークションを設計することを模索している。
われわれはこのことで、より大型の信頼性の高いオークションを設計できることを証明している。
直感的には、分散化された通信モデルは、通信チャネルにメッセージを注入するだけでなく、正当な買い手からのメッセージを削除、遅延、修正することができないため、競売人の敵の能力を弱める。
コミュニケーションが分散化されている場合にのみ信頼性のあるオークションの最初の例を提示します。
さらに、入札者のバリュエーションが$\alpha > 0$に対して$\alpha$-strongly regularである場合、信頼でき、戦略的で、最適である最初の2ラウンドのオークションを構築します。
私たちの結果は、軽微な仮定、すなわち、放送チャンネルの存在と暗号化のコミットメントに依存しています。
We study auction design in a setting where agents can communicate over a censorship-resistant broadcast channel like the ones we can implement over a public blockchain. We seek to design credible, strategyproof auctions in a model that differs from the traditional mechanism design framework because communication is not centralized via the auctioneer. We prove this allows us to design a larger class of credible auctions where the auctioneer has no incentive to be strategic. Intuitively, a decentralized communication model weakens the auctioneer's adversarial capabilities because they can only inject messages into the communication channel but not delete, delay, or modify the messages from legitimate buyers. Our main result is a separation in the following sense: we give the first instance of an auction that is credible only if communication is decentralized. Moreover, we construct the first two-round auction that is credible, strategyproof, and optimal when bidder valuations are $\alpha$-strongly regular, for $\alpha > 0$. Our result relies on mild assumptions -- namely, the existence of a broadcast channel and cryptographic commitments. | 翻訳日:2024-09-07 07:20:22 公開日:2024-09-03 |
# イベントシーケンスの連続時間畳み込みモデル
Continuous-time convolutions model of event sequences ( http://arxiv.org/abs/2302.06247v2 ) ライセンス: Link先を確認 | Vladislav Zhuzhel, Vsevolod Grabar, Galina Boeva, Artem Zabolotnyi, Alexander Stepikin, Vladimir Zholobov, Maria Ivanova, Mikhail Orlov, Ivan Kireev, Evgeny Burnaev, Rodrigo Rivera-Castro, Alexey Zaytsev, | (参考訳) イベントシーケンスは、しばしばデータマイニングに現れる。
これらのシーケンスをモデル化することは、方法論と計算の2つの主な課題を示す。
方法論的には、イベントシーケンスは一様でなくスパースであり、伝統的なモデルは不適当である。
計算上、大量のデータと各シーケンスのかなりの長さは複雑で効率的なモデルを必要とする。
リカレントやトランスフォーマーニューラルネットワークといった既存のソリューションは、各瞬間で定義されたパラメトリック強度関数に依存している。
これらの関数は、複雑なイベントシーケンスを表現する能力に制限があるか、特に非効率である。
我々は、時間とともに一様でない事象の発生を処理するために設計された効率的な畳み込みニューラルネットワークに基づくCOTICを提案する。
本稿では,モデルが計算コストの少ない自己引用効果を含む複雑な依存関係をキャプチャできる連続的畳み込み層を提案する。
COTICは、次のイベント時間とタイプを予測する際に既存のモデルよりも優れており、最も近いライバルの3.714と比較して平均1.5のランクに達している。
さらに、効果的な埋め込みを生成するCOTICの能力は、様々な下流タスクの可能性を示している。
私たちのコードは、https://github.com/VladislavZh/COTIC.comで公開されています。
Event sequences often emerge in data mining. Modeling these sequences presents two main challenges: methodological and computational. Methodologically, event sequences are non-uniform and sparse, making traditional models unsuitable. Computationally, the vast amount of data and the significant length of each sequence necessitate complex and efficient models. Existing solutions, such as recurrent and transformer neural networks, rely on parametric intensity functions defined at each moment. These functions are either limited in their ability to represent complex event sequences or notably inefficient. We propose COTIC, a method based on an efficient convolution neural network designed to handle the non-uniform occurrence of events over time. Our paper introduces a continuous convolution layer, allowing a model to capture complex dependencies, including, e.g., the self-excitement effect, with little computational expense. COTIC outperforms existing models in predicting the next event time and type, achieving an average rank of 1.5 compared to 3.714 for the nearest competitor. Furthermore, COTIC`s ability to produce effective embeddings demonstrates its potential for various downstream tasks. Our code is open and available at: https://github.com/VladislavZh/COTIC. | 翻訳日:2024-09-07 07:10:38 公開日:2024-09-03 |
# COFFEE: イベント抽出のための対照的なOracleフリーフレームワーク
COFFEE: A Contrastive Oracle-Free Framework for Event Extraction ( http://arxiv.org/abs/2303.14452v3 ) ライセンス: Link先を確認 | Meiru Zhang, Yixuan Su, Zaiqiao Meng, Zihao Fu, Nigel Collier, | (参考訳) イベント抽出は、構造化されていないテキストからイベントを抽出する複雑な情報抽出タスクである。
従来の分類に基づく手法では、ジョイントトレーニングのための包括的なエンティティアノテーションが必要であるが、新しい世代ベースの手法は、実際のシナリオでは利用できないイベントタイプのようなオラクル情報を含むヒューリスティックなテンプレートに依存している。
本研究では,Oracle-Free Event extract (OFEE) タスクにおいて,イベントタイプやイベントオントロジー,トリガーワードなどのオラクル情報を持たない入力コンテキストのみを付与する,より現実的なタスク設定について考察する。
この課題を解決するために,文書コンテキストのみに基づくイベントをオラクル情報を参照せずに抽出するCOFFEEという新しいフレームワークを提案する。
特に、COFFEEでは、生成されたトリガを修正し、マルチイベントインスタンスを処理するために、コントラスト選択モデルが導入されている。
提案したCOFFEEは,イベント抽出タスクのオラクルフリー設定下での最先端のアプローチよりも優れており,ACE05で評価されている。
Event extraction is a complex information extraction task that involves extracting events from unstructured text. Prior classification-based methods require comprehensive entity annotations for joint training, while newer generation-based methods rely on heuristic templates containing oracle information such as event type, which is often unavailable in real-world scenarios. In this study, we consider a more realistic setting of this task, namely the Oracle-Free Event Extraction (OFEE) task, where only the input context is given without any oracle information, including event type, event ontology and trigger word. To solve this task, we propose a new framework, called COFFEE, which extracts the events solely based on the document context without referring to any oracle information. In particular, a contrastive selection model is introduced in COFFEE to rectify the generated triggers and handle multi-event instances. The proposed COFFEE outperforms state-of-the-art approaches under the oracle-free setting of the event extraction task, as evaluated on a public event extraction benchmark ACE05. | 翻訳日:2024-09-07 07:10:38 公開日:2024-09-03 |
# より高いチャーン数を持つランダウレベルとそのアナログの特異性
Uniqueness of Landau levels and their analogs with higher Chern numbers ( http://arxiv.org/abs/2304.00866v2 ) ライセンス: Link先を確認 | Bruno Mera, Tomoki Ozawa, | (参考訳) ランドー準位 (Landau level) は、磁場下で2次元の荷電粒子の固有状態であり、整数と分数量子ホール効果の中心にある。
ファンデルワールス物質中の分数量子ホール相の最近の発見に続いて、分数量子ホール相が安定化される正確な条件の理解が急速に進んでいる。
現在、分数量子ホール位相を得る鍵は、固有状態が実空間座標と運動量空間座標の正則関数であるエネルギーバンドであると理解されている。
ランドー準位は確かに、平坦な幾何学的特徴を持つ特別な性質を持つそのようなエネルギーバンドの例である。
本稿では、実際に、平坦な幾何学を持つ正則波動関数を持つ唯一のエネルギー固有状態がランダウレベルとその高いチャーン数アナログであることを示す。
ランダウ準位のような平坦な幾何から任意の正則固有状態を構築することは知られているので、ランダウ準位の一意性証明により、分数量子ホール位相を安定化できる任意の正則固有状態を構築することができる。
Landau levels are the eigenstates of a charged particle in two dimensions under a magnetic field, and are at the heart of the integer and fractional quantum Hall effects, which are two prototypical phenomena showing topological features. Following recent discoveries of fractional quantum Hall phases in van der Waals materials, there is a rapid progress in understanding of the precise condition under which the fractional quantum Hall phases can be stabilized. It is now understood that the key to obtaining the fractional quantum Hall phases is the energy band whose eigenstates are holomorphic functions in both real and momentum space coordinates. Landau levels are indeed examples of such energy bands with an additional special property of having flat geometrical features. In this paper, we prove that, in fact, the only energy eigenstates having holomorphic wave functions with a flat geometry are the Landau levels and their higher Chern number analogs. Since it has been known that any holomorphic eigenstates can be constructed from the ones with a flat geometry such as the Landau levels, our uniqueness proof of the Landau levels allows one to construct any possible holomorphic eigenstate with which the fractional quantum Hall phases can be stabilized. | 翻訳日:2024-09-07 07:10:38 公開日:2024-09-03 |
# 短期軌跡予測のための蒸留知識
Distilling Knowledge for Short-to-Long Term Trajectory Prediction ( http://arxiv.org/abs/2305.08553v4 ) ライセンス: Link先を確認 | Sourav Das, Guglielmo Camporese, Shaokang Cheng, Lamberto Ballan, | (参考訳) 長期軌跡予測はコンピュータビジョン、機械学習、ロボット工学の分野において重要かつ困難な問題である。
1つの根本的な困難は、時間的地平線が大きくなるにつれてますます不確実で予測不可能になる軌道の進化であり、その後、問題の複雑さを増大させる。
そこで本稿では,学生ネットワークの長期軌跡予測を指導する短期軌跡モデル予測器の蒸留手法であるDi-Longを提案する。
学生ネットワークと相補的対象系列に対する許容された観測を理解できる全順序長が与えられた場合、学生と教師は、同じ全軌道上で定義された2つの異なる関連タスクを解決させる: 学生は短い順序を観察し、長い軌道を予測し、教師は長い順序を観察し、残りの短目標軌道を予測する。
教師の課題は不確実性が少なく,その正確な予測を用いて知識蒸留の枠組みを通じて学生を指導し,長期的な不確実性を軽減する。
実験の結果,提案手法は長期予測に有効であり,InD(Intersection Drone Dataset)とSDD(Stanford Drone Dataset)の最先端性能を実現する。
Long-term trajectory forecasting is an important and challenging problem in the fields of computer vision, machine learning, and robotics. One fundamental difficulty stands in the evolution of the trajectory that becomes more and more uncertain and unpredictable as the time horizon grows, subsequently increasing the complexity of the problem. To overcome this issue, in this paper, we propose Di-Long, a new method that employs the distillation of a short-term trajectory model forecaster that guides a student network for long-term trajectory prediction during the training process. Given a total sequence length that comprehends the allowed observation for the student network and the complementary target sequence, we let the student and the teacher solve two different related tasks defined over the same full trajectory: the student observes a short sequence and predicts a long trajectory, whereas the teacher observes a longer sequence and predicts the remaining short target trajectory. The teacher's task is less uncertain, and we use its accurate predictions to guide the student through our knowledge distillation framework, reducing long-term future uncertainty. Our experiments show that our proposed Di-Long method is effective for long-term forecasting and achieves state-of-the-art performance on the Intersection Drone Dataset (inD) and the Stanford Drone Dataset (SDD). | 翻訳日:2024-09-07 05:11:54 公開日:2024-09-03 |
# 量子計算のシミュレーション: "it" の "bits" はいくつか?
Simulating quantum computation: how many "bits" for "it"? ( http://arxiv.org/abs/2305.17287v3 ) ライセンス: Link先を確認 | Michael Zurel, Cihan Okay, Robert Raussendorf, | (参考訳) 確率関数 [M. Zurel et al PRL 260404 (2020)] からの繰り返しサンプリングにより, マジック状態をもつ量子計算のための古典的量子計算法が導入された。
この方法はWigner関数に基づくサンプリングアルゴリズムと密接に関連しており、Wigner関数がサンプリングを妨げる負の値を取ることができるという重要な違いがある。
実際、ウィグナー函数の負性は量子スピードアップの前提条件として特定されている。
しかし、古典シミュレーションの手法では、準確率関数の負性は決して生じない。
このモデルは、全ての量子計算に対して確率的である。
本稿では,シミュレーション手順が追跡しなければならない古典的データの量を解析する。
私たちはこの金額が小さいことに気付く。
具体的には、任意の数$n$のマジック状態に対して、任意の時点における量子系を記述するビットの数は2n^2+O(n)$である。
A recently introduced classical simulation method for universal quantum computation with magic states operates by repeated sampling from probability functions [M. Zurel et al. PRL 260404 (2020)]. This method is closely related to sampling algorithms based on Wigner functions, with the important distinction that Wigner functions can take negative values obstructing the sampling. Indeed, negativity in Wigner functions has been identified as a precondition for a quantum speed-up. However, in the present method of classical simulation, negativity of quasiprobability functions never arises. This model remains probabilistic for all quantum computations. In this paper, we analyze the amount of classical data that the simulation procedure must track. We find that this amount is small. Specifically, for any number $n$ of magic states, the number of bits that describe the quantum system at any given time is $2n^2+O(n)$. | 翻訳日:2024-09-07 05:11:54 公開日:2024-09-03 |
# 滑らかなモデル予測制御のための模擬学習のサンプル複雑さについて
On the Sample Complexity of Imitation Learning for Smoothed Model Predictive Control ( http://arxiv.org/abs/2306.01914v2 ) ライセンス: Link先を確認 | Daniel Pfrommer, Swati Padmanabhan, Kwangjun Ahn, Jack Umenberger, Tobia Marcucci, Zakaria Mhammedi, Ali Jadbabaie, | (参考訳) 近年の模倣学習における研究は、専門家のコントローラーが適度にスムーズで安定していれば、学習したコントローラの性能がより確実に保証されることを示した。
しかし、そのようなスムーズなエキスパートコントローラを任意のシステム向けに構築することは、特に入力や状態制約の存在下では困難である。
主な貢献として、標準的なモデル予測制御(MPC)最適化問題のログバリアに基づく緩和を用いて、そのようなスムーズな専門家が、システムの一般的なクラスに対してどのように設計できるかを示す。
滑らか性に関するこの理論的な保証は新たな下界であり、凸リプシッツ函数に付随する解析中心の最適性ギャップについて証明する。
実験により, ランダムな平滑化に対するスムースなアプローチのメリットを実証し, 理論的知見を検証した。
Recent work in imitation learning has shown that having an expert controller that is both suitably smooth and stable enables stronger guarantees on the performance of the learned controller. However, constructing such smoothed expert controllers for arbitrary systems remains challenging, especially in the presence of input and state constraints. As our primary contribution, we show how such a smoothed expert can be designed for a general class of systems using a log-barrier-based relaxation of a standard Model Predictive Control (MPC) optimization problem. At the crux of this theoretical guarantee on smoothness is a new lower bound we prove on the optimality gap of the analytic center associated with a convex Lipschitz function, which we hope could be of independent interest. We validate our theoretical findings via experiments, demonstrating the merits of our smoothing approach over randomized smoothing. | 翻訳日:2024-09-07 05:11:54 公開日:2024-09-03 |
# 二重量子ドットにおける有限周波数雑音、ファノ因子、$ΔT$-ノイズおよび相互相関
Finite-frequency noise, Fano factor, $ΔT$-noise and cross-correlations in double quantum dots ( http://arxiv.org/abs/2306.02146v2 ) ライセンス: Link先を確認 | A. Crépieux, T. Q. Duong, M. Lavagna, | (参考訳) 電子貯水池に接続された二重量子ドットの電流変動に関する理論的研究は、有限周波ノイズ、ファノ因子、および$\Delta T$-ノイズの導出を目的としている。
二重量子ドットのグリーン関数と貯水池の自己エネルギーという観点から、ノイズの一般表現を確立する。
この結果は、様々な状況における二重量子ドットのモデル化に適用される。
相互作用しない二重量子ドットについては、このシステムの物理的性質にいくつかの興味深い特徴が強調されている。
特に, システムが所定の運転状態に置かれている場合, あるいは2つの貯水池間で温度勾配が適用された場合, 負の$\Delta T$-noiseが生成される場合に, ゼロ周波数雑音とファノ係数が著しく減少する可能性を示した。
加えて、ハニカム頂点付近では、2つの貯水池間の有限周波クロスコレレータにおいて、0周波クロスコレレータで得られるものと対照的に、$(\varepsilon_1,\varepsilon_2)$-plane, $\varepsilon_{1,2}$は2つの点のレベルエネルギーである。
近似的な1段階の数値的アプローチを用いて、クーロン相互作用の影響下で、二重量子ドット内の有限周波ノイズがどのように進化するかを最終的に研究する。
A theoretical study on electrical current fluctuations in a double quantum dot connected to electronic reservoirs is presented, with the aim of deriving the finite-frequency noise, the Fano factor and the $\Delta T$-noise. We establish a general expression for the noise in terms of Green functions in the double quantum dot and self-energies in the reservoirs. This result is then applied to model double quantum dots in various situations. For a non-interacting double quantum dot, we have highlighted several interesting features in the physical properties of this system. In particular, we have demonstrated the possibility of obtaining a significant reduction in zero-frequency noise and Fano factor either when the system is placed in a given operating regime, or when a temperature gradient is applied between the two reservoirs, resulting in a negative $\Delta T$-noise being generated. In addition, in the vicinity of honeycomb vertices, a sign change is observed in the finite-frequency cross-correlator between the two reservoirs, in contrast to what is obtained for the zero-frequency cross-correlator, which remains negative throughout the $(\varepsilon_1,\varepsilon_2)$-plane, $\varepsilon_{1,2}$ being the level energies in each of the two dots. By using an approximate first-level numerical approach, we finally study how the finite-frequency noise in a double quantum dot evolves under the influence of Coulomb interactions. | 翻訳日:2024-09-07 05:11:54 公開日:2024-09-03 |
# 価値分布モデルに基づく強化学習
Value-Distributional Model-Based Reinforcement Learning ( http://arxiv.org/abs/2308.06590v2 ) ライセンス: Link先を確認 | Carlos E. Luis, Alessandro G. Bottero, Julia Vinogradska, Felix Berkenkamp, Jan Peters, | (参考訳) 政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から,マルコフ決定過程のパラメータ(直観的)の不確かさによって引き起こされる値関数の後方分布を学習することを目的とする。
以前の研究は、解析を値上の分布のいくつかの瞬間に制限したり、特定の分布形式(例えばガウス)を課す。
分布強化学習に着想を得て,固定点が値分布関数であるベルマン演算子を導入する。
この理論に基づいて,値分布関数を学習するモデルに基づくアルゴリズムであるEQR(Epstemic Quantile-Regression)を提案する。
EQRとソフトアクター・クリティカル(SAC)を組み合わせて、ポリシー最適化と学習した値分布の任意の微分可能な目的関数を合成する。
複数の連続制御タスクに対する評価は、モデルベースアルゴリズムとモデルフリーアルゴリズムの両方に対するパフォーマンス上の利点を示している。
コードはhttps://github.com/boschresearch/dist-mbrl.comで公開されている。
Quantifying uncertainty about a policy's long-term performance is important to solve sequential decision-making tasks. We study the problem from a model-based Bayesian reinforcement learning perspective, where the goal is to learn the posterior distribution over value functions induced by parameter (epistemic) uncertainty of the Markov decision process. Previous work restricts the analysis to a few moments of the distribution over values or imposes a particular distribution shape, e.g., Gaussians. Inspired by distributional reinforcement learning, we introduce a Bellman operator whose fixed-point is the value distribution function. Based on our theory, we propose Epistemic Quantile-Regression (EQR), a model-based algorithm that learns a value distribution function. We combine EQR with soft actor-critic (SAC) for policy optimization with an arbitrary differentiable objective function of the learned value distribution. Evaluation across several continuous-control tasks shows performance benefits with respect to both model-based and model-free algorithms. The code is available at https://github.com/boschresearch/dist-mbrl. | 翻訳日:2024-09-07 04:56:30 公開日:2024-09-03 |
# GPTの金融リテラシーテストとアドバイスの源泉としての活用の予備的テスト
GPT has become financially literate: Insights from financial literacy tests of GPT and a preliminary test of how people use it as a source of advice ( http://arxiv.org/abs/2309.00649v2 ) ライセンス: Link先を確認 | Paweł Niszczota, Sami Abbas, | (参考訳) 我々は,大規模言語モデルであるGPTが,金融リテラシーテストを用いて,大衆のロボアドバイザとして機能する能力を評価する。
GPT-3.5に基づくDavinciとChatGPTはそれぞれ66%、金融リテラシーテストでは65%、ベースラインは33%だった。
しかし、GPT-4に基づくChatGPTは、ほぼ完全な99%のスコアを獲得し、金融リテラシーが最先端モデルの創発的な能力になることを示している。
我々は、大規模言語モデルからアドバイス活用を評価する方法を説明するために、ジャッジ・アドバイザシステムと貯蓄ジレンマを使用します。
今後の研究の方向性もいくつか提示する。
We assess the ability of GPT -- a large language model -- to serve as a financial robo-advisor for the masses, by using a financial literacy test. Davinci and ChatGPT based on GPT-3.5 score 66% and 65% on the financial literacy test, respectively, compared to a baseline of 33%. However, ChatGPT based on GPT-4 achieves a near-perfect 99% score, pointing to financial literacy becoming an emergent ability of state-of-the-art models. We use the Judge-Advisor System and a savings dilemma to illustrate how researchers might assess advice-utilization from large language models. We also present a number of directions for future research. | 翻訳日:2024-09-07 04:56:30 公開日:2024-09-03 |
# 深いパラメータ化量子回路のためのバレンプラトーのリー代数理論
A Lie Algebraic Theory of Barren Plateaus for Deep Parameterized Quantum Circuits ( http://arxiv.org/abs/2309.09342v3 ) ライセンス: Link先を確認 | Michael Ragone, Bojko N. Bakalov, Frédéric Sauvage, Alexander F. Kemper, Carlos Ortiz Marrero, Martin Larocca, M. Cerezo, | (参考訳) 変分量子コンピューティングスキームは、パラメータ化された量子回路を通して初期状態を送り、ある演算子の期待値を測定することによって損失関数を訓練する。
その保証にもかかわらず、これらのアルゴリズムの訓練性は、回路の表現性、入力データの絡み合い、観測可能な局所性、ノイズの存在によって誘導されるバレンプラトー(BP)によって妨げられる。
この時点まで、これらのBPの源泉は独立していると見なされてきた。
本研究では,特定の雑音モデルが存在する場合でも,十分に深いパラメタライズド量子回路の損失関数の分散を正確に表現する一般リー代数理論を提案する。
この結果から、前述のBPのすべてのソースを1つのフレームワークで理解することができます。
この理論的な跳躍は、損失濃度と回路ジェネレータのリー代数の次元の間の関係に関する定常予想を解く。
Variational quantum computing schemes train a loss function by sending an initial state through a parametrized quantum circuit, and measuring the expectation value of some operator. Despite their promise, the trainability of these algorithms is hindered by barren plateaus (BPs) induced by the expressiveness of the circuit, the entanglement of the input data, the locality of the observable, or the presence of noise. Up to this point, these sources of BPs have been regarded as independent. In this work, we present a general Lie algebraic theory that provides an exact expression for the variance of the loss function of sufficiently deep parametrized quantum circuits, even in the presence of certain noise models. Our results allow us to understand under one framework all aforementioned sources of BPs. This theoretical leap resolves a standing conjecture about a connection between loss concentration and the dimension of the Lie algebra of the circuit's generators. | 翻訳日:2024-09-07 04:56:30 公開日:2024-09-03 |
# スコアモデルによるベイジアン・クラメール・ラオ境界の推定
Bayesian Cramér-Rao Bound Estimation with Score-Based Models ( http://arxiv.org/abs/2309.16076v2 ) ライセンス: Link先を確認 | Evan Scope Crafts, Xianyang Zhang, Bo Zhao, | (参考訳) ベイズクラム・ラオ境界(英語版)(英: Bayesian Cram\'er-Rao bound, CRB)は、任意のベイズ推定器の平均二乗誤差に対して、穏やかな規則性条件下での下界を与える。
統計推定器の性能のベンチマークに使用することができ、システム設計と最適化のための原則化された指標を提供する。
しかし、ベイジアン CRB は基礎となる事前分布に依存しており、多くの問題に対してしばしば未知である。
本研究は,ベイジアン CRB のスコアマッチングを用いた新しいデータ駆動推定手法,すなわち与えられたトレーニングデータから確率分布の勾配をモデル化する統計的推定手法を導入する。
提案した推定器の性能は,古典的パラメトリック・モデリング・レジームとニューラルネットワーク・モデリング・レジームの両方で解析される。
いずれの設定においても,古典的境界を含む経験的プロセス理論の結果に基づいて,スコアマッチング誤差とベイジアン CRB 推定器の新たな非漸近境界を開発し,最近ニューラルネットワークのキャラクタリゼーション技術を導入した。
提案した推定器の性能を2つの応用例で説明する: 通信システムにおける信号分解問題と動的位相オフセット推定問題である。
The Bayesian Cram\'er-Rao bound (CRB) provides a lower bound on the mean square error of any Bayesian estimator under mild regularity conditions. It can be used to benchmark the performance of statistical estimators, and provides a principled metric for system design and optimization. However, the Bayesian CRB depends on the underlying prior distribution, which is often unknown for many problems of interest. This work introduces a new data-driven estimator for the Bayesian CRB using score matching, i.e., a statistical estimation technique that models the gradient of a probability distribution from a given set of training data. The performance of the proposed estimator is analyzed in both the classical parametric modeling regime and the neural network modeling regime. In both settings, we develop novel non-asymptotic bounds on the score matching error and our Bayesian CRB estimator based on the results from empirical process theory, including classical bounds and recently introduced techniques for characterizing neural networks. We illustrate the performance of the proposed estimator with two application examples: a signal denoising problem and a dynamic phase offset estimation problem in communication systems. | 翻訳日:2024-09-07 04:41:34 公開日:2024-09-03 |
# ARN: ナラティブに関するアナロジカル推論
ARN: Analogical Reasoning on Narratives ( http://arxiv.org/abs/2310.00996v4 ) ライセンス: Link先を確認 | Zhivar Sourati, Filip Ilievski, Pia Sommerauer, Yifan Jiang, | (参考訳) ドメイン間の情報の伝達性を可能にするコア認知技術として、人間と計算モデルの両方でアナログ推論が広く研究されている。
しかしながら、アナロジーの認知理論は、しばしば物語に焦点をあて、表面、関係性、およびシステム類似性の違いを研究するが、自然言語処理における既存の研究は、単語ペア間の関係類似性に関してより限定的な焦点を持つ。
最先端の大規模言語モデル(LLM)は、物語間のシステム類似性を検出できるだろうか?
そこで我々は,この疑問に対する洞察を得るとともに,単語ベースの関係的類似語を関係系類似語に拡張するために,ナラティブ要素を用いて,類似語の主要な理論を運用する包括的計算フレームワークを考案した。
これらのマッピング間の相互作用を活用して、Narratives (ARN) に関するアナロジ的推論のためのバイナリタスクとベンチマークを作成し、遠方(クロスドメイン)/近方(非ドメイン)のアナロジーと非アナロジーの4つのカテゴリをカバーする。
すべてのLLMがほぼ類似点を認識できるが、最大のものでさえゼロショット設定では極端に類似点に苦戦し、GPT4.0はランダムにスコアが下がった。
解決された例と連鎖推論を通してモデルを導くことは、類似の推論能力を高める。
しかし、数ショットのセッティングであっても、最良のモデルはランダムと人間の間の中間でしか動作しないため、ARNは計算的なアナログ推論のためにエキサイティングな方向を開く。
As a core cognitive skill that enables the transferability of information across domains, analogical reasoning has been extensively studied for both humans and computational models. However, while cognitive theories of analogy often focus on narratives and study the distinction between surface, relational, and system similarities, existing work in natural language processing has a narrower focus as far as relational analogies between word pairs. This gap brings a natural question: can state-of-the-art large language models (LLMs) detect system analogies between narratives? To gain insight into this question and extend word-based relational analogies to relational system analogies, we devise a comprehensive computational framework that operationalizes dominant theories of analogy, using narrative elements to create surface and system mappings. Leveraging the interplay between these mappings, we create a binary task and benchmark for Analogical Reasoning on Narratives (ARN), covering four categories of far (cross-domain)/near (within-domain) analogies and disanalogies. We show that while all LLMs can largely recognize near analogies, even the largest ones struggle with far analogies in a zero-shot setting, with GPT4.0 scoring below random. Guiding the models through solved examples and chain-of-thought reasoning enhances their analogical reasoning ability. Yet, since even in the few-shot setting, the best model only performs halfway between random and humans, ARN opens exciting directions for computational analogical reasoners. | 翻訳日:2024-09-07 04:41:34 公開日:2024-09-03 |
# ベクトル量子離散拡散モデルを用いたコンストラクタスタイルのシンボリック音楽生成
Composer Style-specific Symbolic Music Generation Using Vector Quantized Discrete Diffusion Models ( http://arxiv.org/abs/2310.14044v2 ) ライセンス: Link先を確認 | Jincheng Zhang, György Fazekas, Charalampos Saitis, | (参考訳) 創発的拡散確率モデル (DDPM) は、画像や音声合成などの連続データを用いた多種多様な生成タスクで達成された有望な結果により、ますます活用されつつある。
それでも拡散モデルの成功は、離散的な象徴音楽に完全には拡張されていない。
本稿では,ベクトル量子化変分オートエンコーダ(VQ-VAE)と,シンボリック音楽生成のための離散拡散モデルを組み合わせることを提案する。
訓練されたVQ-VAEは、学習されたコードブック内の特定のエントリに対応するインデックスのシーケンスとしてシンボル音楽を表現することができる。
その後、離散拡散モデルを用いて、VQ-VAEの離散潜在空間をモデル化する。
拡散モデルは、VQ-VAEの復号器を用いて記号音楽に復号されるコードブックインデックスからなる中間音楽列を生成するように訓練される。
評価結果は,72.36%の精度で所定の条件を満たすターゲット作曲家スタイルのシンボリック音楽を生成することができることを示した。
私たちのコードはhttps://github.com/jinchengzhanggg/VQVAE-Diffusion.comで公開されています。
Emerging Denoising Diffusion Probabilistic Models (DDPM) have become increasingly utilised because of promising results they have achieved in diverse generative tasks with continuous data, such as image and sound synthesis. Nonetheless, the success of diffusion models has not been fully extended to discrete symbolic music. We propose to combine a vector quantized variational autoencoder (VQ-VAE) and discrete diffusion models for the generation of symbolic music with desired composer styles. The trained VQ-VAE can represent symbolic music as a sequence of indexes that correspond to specific entries in a learned codebook. Subsequently, a discrete diffusion model is used to model the VQ-VAE's discrete latent space. The diffusion model is trained to generate intermediate music sequences consisting of codebook indexes, which are then decoded to symbolic music using the VQ-VAE's decoder. The evaluation results demonstrate our model can generate symbolic music with target composer styles that meet the given conditions with a high accuracy of 72.36%. Our code is available at https://github.com/jinchengzhanggg/VQVAE-Diffusion. | 翻訳日:2024-09-07 04:41:34 公開日:2024-09-03 |
# 量子アニール二元勾配による確率勾配の投射
Projected Stochastic Gradient Descent with Quantum Annealed Binary Gradients ( http://arxiv.org/abs/2310.15128v2 ) ライセンス: Link先を確認 | Maximilian Krahn, Michele Sasdelli, Fengyi Yang, Vladislav Golyanik, Juho Kannala, Tat-Jun Chin, Tolga Birdal, | (参考訳) 本稿では、量子ハードウェア上でバイナリニューラルネットワーク(BNN)と呼ばれる2重みを持つニューラルネットワークをトレーニングするための、新しいレイヤワイド確率オプティマイザであるQP-SBGDを提案する。
BNNは、深層学習モデルの計算要求とエネルギー消費を最小限の精度で削減する。
しかし、実際にそれらを訓練することはオープンな課題である。
最も有名なBNN最適化者は、予測更新か、トレーニング後の二乗重みに頼っている。
代わりに、QP-SBGD は2次制約付き二項最適化を解くことにより、勾配を二項変数に近似する。
実質的に妥当な仮定の下で、この更新規則は$\mathcal{O}(1 / \sqrt{T})$と収束することを示す。
さらに,最近の量子計算の進歩を生かして,$\mathcal{NP}$-hardプロジェクションが断熱型量子アニール上で効果的に実行されることを示す。
また、この更新ルールの予測バージョンを導入し、バイナリ変数空間に固定点が存在する場合、修正された更新がそれに収束することを示す。
最後に、我々のアルゴリズムは階層的に実装されており、リソース制限の量子ハードウェア上で、より大きなネットワークをトレーニングするのに適している。
広汎な評価により、Rosenbrock関数の最適化、BNNのトレーニング、バイナリグラフニューラルネットワークのトレーニングにおいて、QP-SBGDがBinaryConnect、SignSGD、ProxQuantなどの競合的かつ確立されたベースラインより優れているか、あるいは同等であることを示す。
We present, QP-SBGD, a novel layer-wise stochastic optimiser tailored towards training neural networks with binary weights, known as binary neural networks (BNNs), on quantum hardware. BNNs reduce the computational requirements and energy consumption of deep learning models with minimal loss in accuracy. However, training them in practice remains to be an open challenge. Most known BNN-optimisers either rely on projected updates or binarise weights post-training. Instead, QP-SBGD approximately maps the gradient onto binary variables, by solving a quadratic constrained binary optimisation. Under practically reasonable assumptions, we show that this update rule converges with a rate of $\mathcal{O}(1 / \sqrt{T})$. Moreover, we show how the $\mathcal{NP}$-hard projection can be effectively executed on an adiabatic quantum annealer, harnessing recent advancements in quantum computation. We also introduce a projected version of this update rule and prove that if a fixed point exists in the binary variable space, the modified updates will converge to it. Last but not least, our algorithm is implemented layer-wise, making it suitable to train larger networks on resource-limited quantum hardware. Through extensive evaluations, we show that QP-SBGD outperforms or is on par with competitive and well-established baselines such as BinaryConnect, signSGD and ProxQuant when optimising the Rosenbrock function, training BNNs as well as binary graph neural networks. | 翻訳日:2024-09-07 04:41:34 公開日:2024-09-03 |
# 逆追跡による補正は要約における幻覚を減少させる
Correction with Backtracking Reduces Hallucination in Summarization ( http://arxiv.org/abs/2310.16176v3 ) ライセンス: Link先を確認 | Zhenzhen Liu, Chao Wan, Varsha Kishore, Jin Peng Zhou, Minmin Chen, Kilian Q. Weinberger, | (参考訳) 抽象要約は、重要な要素を保存しながら簡潔なソースドキュメントの自然言語要約を生成することを目的としている。
近年の進歩にもかかわらず、神経文の要約モデルは幻覚(あるいはより正確に折り畳む)に感受性があることが知られている。
本稿では,抽象的な要約における幻覚を低減するため,シンプルだが効率的な手法であるCoBaを紹介する。
アプローチは幻覚検出と緩和という2つのステップに基づいている。
前者は条件付き単語の確率と文脈語の距離に関する単純な統計値を測定することで達成可能であることを示す。
さらに、ストレートフォワードのバックトラックは驚くほど効果があることを示した。
テキスト要約のための3つのベンチマークデータセットに対して,先行技術を用いて提案手法を徹底的に評価した。
その結果,CoBaは幻覚の低減に有効かつ効率的であり,適応性と柔軟性に優れていた。
コードはhttps://github.com/zhenzhel/CoBa.orgにある。
Abstractive summarization aims at generating natural language summaries of a source document that are succinct while preserving the important elements. Despite recent advances, neural text summarization models are known to be susceptible to hallucinating (or more correctly confabulating), that is to produce summaries with details that are not grounded in the source document. In this paper, we introduce a simple yet efficient technique, CoBa, to reduce hallucination in abstractive summarization. The approach is based on two steps: hallucination detection and mitigation. We show that the former can be achieved through measuring simple statistics about conditional word probabilities and distance to context words. Further, we demonstrate that straight-forward backtracking is surprisingly effective at mitigation. We thoroughly evaluate the proposed method with prior art on three benchmark datasets for text summarization. The results show that CoBa is effective and efficient in reducing hallucination, and offers great adaptability and flexibility. Code can be found at https://github.com/zhenzhel/CoBa. | 翻訳日:2024-09-07 04:31:08 公開日:2024-09-03 |
# 無限温度における障害可変絡み合い
Disorder-tunable entanglement at infinite temperature ( http://arxiv.org/abs/2312.10216v2 ) ライセンス: Link先を確認 | Hang Dong, Jean-Yves Desaules, Yu Gao, Ning Wang, Zexian Guo, Jiachen Chen, Yiren Zou, Feitong Jin, Xuhao Zhu, Pengfei Zhang, Hekang Li, Zhen Wang, Qiujiang Guo, Junxiang Zhang, Lei Ying, Zlatko Papić, | (参考訳) 新興量子技術は、凝縮物質から高エネルギー物理学まで困難な問題を解き放つことを約束すると同時に、その設定において前例のない現象の探索を動機付けている。
ここでは、エネルギースペクトルの中央に豊富な絡み合い構造を持つ非熱化状態を実現するために、カスタム構築の超伝導量子ビットはしごを用いる。
効果的に「無限の」温度アンサンブルを形成するにもかかわらず、これらの状態は、はしごのクエンチ力学における忠実度と絡み合いエントロピーを測定することによって示されるように、平衡から遠く離れた量子情報をしっかりとエンコードする。
提案手法は,最近提案された「レインボー傷」と呼ばれる非エルゴード的挙動を利用して,そのエネルギーに影響を与えることなく,モデルの結合をランダム化することにより,エルゴード性破壊特性を便利に制御できる解析的精度の高い固有関数を得る。
障害による量子相関のオンデマンドチューナビリティにより、エルゴディディティの破れをその場で制御することができ、熱化を阻害するエキゾチックな多体状態を設計するためのノブを提供する。
Emerging quantum technologies hold the promise of unraveling difficult problems ranging from condensed matter to high energy physics, while at the same time motivating the search for unprecedented phenomena in their setting. Here we utilize a custom-built superconducting qubit ladder to realize non-thermalizing states with rich entanglement structures in the middle of the energy spectrum. Despite effectively forming an "infinite" temperature ensemble, these states robustly encode quantum information far from equilibrium, as we demonstrate by measuring the fidelity and entanglement entropy in the quench dynamics of the ladder. Our approach harnesses the recently proposed type of non-ergodic behavior known as "rainbow scar", which allows us to obtain analytically exact eigenfunctions whose ergodicity-breaking properties can be conveniently controlled by randomizing the couplings of the model, without affecting their energy. The on-demand tunability of quantum correlations via disorder allows for in situ control over ergodicity breaking and it provides a knob for designing exotic many-body states that defy thermalization. | 翻訳日:2024-09-07 04:21:21 公開日:2024-09-03 |
# BrainVis:画像再構成による脳と視覚信号の橋渡し
BrainVis: Exploring the Bridge between Brain and Visual Signals via Image Reconstruction ( http://arxiv.org/abs/2312.14871v3 ) ライセンス: Link先を確認 | Honghao Fu, Zhiqi Shen, Jing Jih Chin, Hao Wang, | (参考訳) 脳信号からの視覚刺激の分析と再構成は、人間の視覚系の理解を効果的に進める。
しかし、脳波信号は複雑であり、大きなノイズを含む。
これは、脳波の埋め込みをきめ細かな意味情報と整合させることの難しさや、トレーニングのための大規模な自己収集データセットに大きく依存することなど、脳波からの視覚刺激再構成の既存の作業において、かなりの制限をもたらす。
これらの課題に対処するために、BrainVisと呼ばれる新しいアプローチを提案する。
まず,脳波信号を様々な単位に分割し,学習難易度を高めるため,脳波の時間領域特性を自己監督的に取得する手法を提案する。
また、周波数領域の特徴を利用して脳波表現を強化することを提案する。
次に,脳波の時間-周波数埋め込みとCLIP空間の粗いセマンティクスと微粒なセマンティクスの補間を同時に調整し,一次視覚成分の強調と相互アライメントの困難さを低減する。
最後に,カスケード拡散モデルを用いて画像の再構成を行う。
提案したBrainVisは,従来の研究の10倍のトレーニングデータのみを用いて,セマンティックな忠実度再構築と生成品質の両方において最先端の成果を上げている。
コードはhttps://github.com/RomGai/BrainVis.comで入手できる。
Analyzing and reconstructing visual stimuli from brain signals effectively advances the understanding of human visual system. However, the EEG signals are complex and contain significant noise. This leads to substantial limitations in existing works of visual stimuli reconstruction from EEG, such as difficulties in aligning EEG embeddings with the fine-grained semantic information and a heavy reliance on additional large self-collected dataset for training. To address these challenges, we propose a novel approach called BrainVis. Firstly, we divide the EEG signals into various units and apply a self-supervised approach on them to obtain EEG time-domain features, in an attempt to ease the training difficulty. Additionally, we also propose to utilize the frequency-domain features to enhance the EEG representations. Then, we simultaneously align EEG time-frequency embeddings with the interpolation of the coarse and fine-grained semantics in the CLIP space, to highlight the primary visual components and reduce the cross-modal alignment difficulty. Finally, we adopt the cascaded diffusion models to reconstruct images. Using only 10\% training data of the previous work, our proposed BrainVis outperforms state of the arts in both semantic fidelity reconstruction and generation quality. The code is available at https://github.com/RomGai/BrainVis. | 翻訳日:2024-09-07 04:11:38 公開日:2024-09-03 |
# Krylov Spread Complexity of Quantum-Walks
Krylov Spread Complexity of Quantum-Walks ( http://arxiv.org/abs/2401.00526v2 ) ライセンス: Link先を確認 | Bhilahari Jeevanesan, | (参考訳) 量子技術の最近の進歩を考えると、量子状態の複雑さは重要な概念である。
Krylovの拡散複雑性の考え方は、これを定量的に捉えることを目的として、最近注目されている。
本論文は, グラフ上の連続時間量子ウォークの文脈において, クリロフ複雑性測度を探索することによって, 新たな光を当てるものである。
クリロフ拡散複雑性と量子ウォークの極限分布の概念との密接な関係が確立される。
さらに、グラフ最適化アルゴリズムを用いて、最小かつ最小の長時間平均Krylov $\bar C$-complexityを持つ量子ウォークグラフを構築する。
このことは、ヒルベルト空間次元と正確な下界の関数として、$\bar C$-複素性に対する経験的上界を明らかにする。
Given the recent advances in quantum technology, the complexity of quantum states is an important notion. The idea of the Krylov spread complexity has come into focus recently with the goal of capturing this in a quantitative way. The present paper sheds new light on the Krylov complexity measure by exploring it in the context of continuous-time quantum-walks on graphs. A close relationship between Krylov spread complexity and the concept of limiting-distributions for quantum-walks is established. Moreover, using a graph optimization algorithm, quantum-walk graphs are constructed that have minimal and maximal long-time average Krylov $\bar C$-complexity. This reveals an empirical upper bound for the $\bar C$-complexity as a function of Hilbert space dimension and an exact lower bound. | 翻訳日:2024-09-07 04:11:38 公開日:2024-09-03 |
# 生成人工知能の次のステップ:科学教育における多モーダル大言語モデルの役割
Taking the Next Step with Generative Artificial Intelligence: The Transformative Role of Multimodal Large Language Models in Science Education ( http://arxiv.org/abs/2401.00832v2 ) ライセンス: Link先を確認 | Arne Bewersdorff, Christian Hartmann, Marie Hornberger, Kathrin Seßler, Maria Bannert, Enkelejda Kasneci, Gjergji Kasneci, Xiaoming Zhai, Claudia Nerdel, | (参考訳) 教育における人工知能(AI)、特にLarge Language Model(LLM)ベースのシステムの統合は、教育と学習経験の強化を約束している。
しかし、GPT-4のような多モーダル大規模言語モデル(MLLM)の出現は、テキスト、音声、視覚入力を含む多モーダルデータを処理し、教育におけるリッチでパーソナライズされたインタラクティブな学習環境の新たな時代を開く。
本稿では,マルチメディア学習の理論を基礎として,科学教育の中心的な側面におけるMLLMの変革的役割を,模範的な革新的な学習シナリオを提示することによって探求する。
MLLMの応用は、コンテンツ作成から学習のための適切なサポート、科学的実践における能力の育成、評価とフィードバックの提供まで様々である。
これらのシナリオはテキストベースやユニモーダル形式に限らず、マルチモーダルになり、パーソナライズ、アクセシビリティ、潜在的な学習効率が向上する。
多くの機会に加えて、データ保護や倫理的考慮といった課題がより健全になり、責任ある統合を保証するための堅牢なフレームワークが求められます。
本稿では,理科教育におけるAIの効果的な倫理的活用を確実にするために,教育者の役割に取って代わるのではなく,技術が補完するMLLMの実装において,バランスのとれたアプローチの必要性を強調する。
これは、MLLMが教育者の役割を進化させる上での無意味な意味を探求し、科学教育を超えて他の分野にまでその言説を広げるために、さらなる研究を求めるものである。
我々は,可能性,課題,将来的な意味の探索を通じて,理科教育以降におけるMLLMの変容軌道の予備的理解をめざす。
The integration of Artificial Intelligence (AI), particularly Large Language Model (LLM)-based systems, in education has shown promise in enhancing teaching and learning experiences. However, the advent of Multimodal Large Language Models (MLLMs) like GPT-4 with vision (GPT-4V), capable of processing multimodal data including text, sound, and visual inputs, opens a new era of enriched, personalized, and interactive learning landscapes in education. Grounded in theory of multimedia learning, this paper explores the transformative role of MLLMs in central aspects of science education by presenting exemplary innovative learning scenarios. Possible applications for MLLMs could range from content creation to tailored support for learning, fostering competencies in scientific practices, and providing assessment and feedback. These scenarios are not limited to text-based and uni-modal formats but can be multimodal, increasing thus personalization, accessibility, and potential learning effectiveness. Besides many opportunities, challenges such as data protection and ethical considerations become more salient, calling for robust frameworks to ensure responsible integration. This paper underscores the necessity for a balanced approach in implementing MLLMs, where the technology complements rather than supplants the educator's role, ensuring thus an effective and ethical use of AI in science education. It calls for further research to explore the nuanced implications of MLLMs on the evolving role of educators and to extend the discourse beyond science education to other disciplines. Through the exploration of potentials, challenges, and future implications, we aim to contribute to a preliminary understanding of the transformative trajectory of MLLMs in science education and beyond. | 翻訳日:2024-09-07 04:11:38 公開日:2024-09-03 |
# センティメント分類のためのソーシャルメディア上のペルシャ短文の形式的・深層学習へのペルシア語スラングテキスト変換
Persian Slang Text Conversion to Formal and Deep Learning of Persian Short Texts on Social Media for Sentiment Classification ( http://arxiv.org/abs/2403.06023v2 ) ライセンス: Link先を確認 | Mohsen Khazeni, Mohammad Heydari, Amir Albadvi, | (参考訳) ペルシア語における会話テキストの分析に適したツールが欠如していることは、センチメント分析など、これらのテキストの分析を困難にしている。
本研究では,PSC,ペルシャ・スラング・コンバータ,対話型テキストを形式的テキストに変換するツールを提供することにより,これらのテキストの理解を機械にとって容易なものにすることを試みた。
さまざまなソーシャルネットワークや映画のサブタイトル(会話テキスト)から1000万以上の未ラベルのテキストが作成され、(公式テキストとして)約1000万のニューステキストが、教師なしモデルのトレーニングやツールの正式な実装に使用されている。
短いテキストの感情分類モデルをトレーニングするための教師付きデータとして,肯定的,否定的,中立的なラベルを持つInstagramユーザのコメントから6万件のテキストが検討されている。
フォーマルツールを用いて、会話のコーパスの57%が変換された。
最後に、フォーマル化器、FastTextモデル、深層LSTMネットワークを用いて、テストデータから81.91の精度を得た。
The lack of a suitable tool for the analysis of conversational texts in the Persian language has made various analyses of these texts, including Sentiment Analysis, difficult. In this research, we tried to make the understanding of these texts easier for the machine by providing PSC, Persian Slang Converter, a tool for converting conversational texts into formal ones, and by using the most up-to-date and best deep learning methods along with the PSC, the sentiment learning of short Persian language texts for the machine in a better way. be made More than 10 million unlabeled texts from various social networks and movie subtitles (as Conversational texts) and about 10 million news texts (as formal texts) have been used for training unsupervised models and formal implementation of the tool. 60,000 texts from the comments of Instagram social network users with positive, negative, and neutral labels are considered supervised data for training the emotion classification model of short texts. Using the formal tool, 57% of the words of the corpus of conversation were converted. Finally, by using the formalizer, FastText model, and deep LSTM network, an accuracy of 81.91 was obtained on the test data. | 翻訳日:2024-09-07 03:42:07 公開日:2024-09-03 |
# SSMがビデオ拡散モデルを発表:構造化された状態空間を持つ効率的な長期ビデオ生成
SSM Meets Video Diffusion Models: Efficient Long-Term Video Generation with Structured State Spaces ( http://arxiv.org/abs/2403.07711v4 ) ライセンス: Link先を確認 | Yuta Oshima, Shohei Taniguchi, Masahiro Suzuki, Yutaka Matsuo, | (参考訳) 拡散モデルによる画像生成における顕著な成果を考えると、研究コミュニティはこれらのモデルをビデオ生成に拡張することへの関心が高まっている。
映像生成のための近年の拡散モデルでは、時間的特徴を抽出するために注意層を主に利用している。
しかし、アテンション層は計算コストによって制限され、シークエンスの長さで2次的に増加する。
この制限は拡散モデルを用いてより長いビデオシーケンスを生成する際に大きな課題をもたらす。
この課題を克服するために、時間的特徴抽出器として状態空間モデル(SSM)を活用することを提案する。
SSM(例えば、Mamba)は、最近、シーケンス長に対する線形時間メモリ消費のために、有望な代替手段として注目されている。
画像生成における空間的特徴の理解には,従来の一方向SSMを頼らずに,映像データの時間的特徴の抽出にも,双方向SSMが有効であることが示唆された。
我々は,MineRL Navigateなどの複数の長期ビデオデータセットについて,様々なモデルサイズで包括的評価を行った。
256フレームまでのシーケンスでは、注意ベースのモデルと同じFVDを達成するために、SSMベースのモデルは少ないメモリを必要とする。
さらに、SSMベースのモデルは、同等のGPUメモリ使用量でより良いパフォーマンスを提供することが多い。
私たちのコードはhttps://github.com/shim0114/SSM-Meets-Video-Diffusion-Modelsで利用可能です。
Given the remarkable achievements in image generation through diffusion models, the research community has shown increasing interest in extending these models to video generation. Recent diffusion models for video generation have predominantly utilized attention layers to extract temporal features. However, attention layers are limited by their computational costs, which increase quadratically with the sequence length. This limitation presents significant challenges when generating longer video sequences using diffusion models. To overcome this challenge, we propose leveraging state-space models (SSMs) as temporal feature extractors. SSMs (e.g., Mamba) have recently gained attention as promising alternatives due to their linear-time memory consumption relative to sequence length. In line with previous research suggesting that using bidirectional SSMs is effective for understanding spatial features in image generation, we found that bidirectionality is also beneficial for capturing temporal features in video data, rather than relying on traditional unidirectional SSMs. We conducted comprehensive evaluations on multiple long-term video datasets, such as MineRL Navigate, across various model sizes. For sequences up to 256 frames, SSM-based models require less memory to achieve the same FVD as attention-based models. Moreover, SSM-based models often deliver better performance with comparable GPU memory usage. Our codes are available at https://github.com/shim0114/SSM-Meets-Video-Diffusion-Models. | 翻訳日:2024-09-07 03:42:07 公開日:2024-09-03 |
# 量子基礎への新しいアプローチといくつかの結果
A new approach towards quantum foundation and some consequences ( http://arxiv.org/abs/2403.09224v6 ) ライセンス: Link先を確認 | Inge S. Helland, | (参考訳) 6つの仮定に基づく一般的な理論が紹介される。
基本的な概念は、観測者または通信観測者のグループと関連付けられた理論変数である。
これらの変数はアクセス可能かアクセス不能である。
これらの仮定から、量子論の通常の形式主義が導かれる。
数学の導出はこの記事には書かれていないが、最近の記事[9, 10]を参照しよう。
一般理論の3つの可能な応用が与えられる。
1) 変数は,人又は人の集団の決定に関連する変数を判断することができる。
2) 変数は統計的パラメータや将来のデータかもしれない。
3)変数は、あるコンテキストにおける物理変数である。
この最後の応用は、量子力学の全く新しい基盤を与える。これは私の意見では、通常の形式論よりも理解しやすい基礎であり、他の応用もこのアプローチの興味深い結果をもたらすように思える。
Schr\"odinger's cat"のようないわゆるパラドックスは、この理論の下で解明することができる。
デービッド・ボームのEPR実験の結果とベル実験の結果について解説する。
最後に、相対論と場の量子論へのリンクへの参照が与えられる。
結論はさらなる発展を示唆している。
A general theory based upon 6 postulates is introduced. The basical notions are theoretical variables that are associated with an observer or with a group of communicating observers. These variables may be accessible or inaccessible. From these postulates, the ordinary formalism of quantum theory is derived. The mathematical derivations are not given in this article, but I refer to the recent articles [9, 10]. Three possible applications of the general theory can be given; 1) The variables may decision variables connected to the decisions of a person or of a group of persons. 2) The variables may be statistical parameters or future data, But most importantly here: 3) The variables are physical variables in some context. This last application gives a completely new foundation of quantum mechanics, a foundation which in my opinion is much more easy to understand than the ordinary formalism.The other applications seem also to give interesting consequences of the approach. Socalled paradoxes like that of Schr\"odinger's cat can be clarified under the theory. Explanations of the outcomes of David Bohm's version of the EPR experiment and of the Bell experiment are provided. Finally, references to links towards relativity theory and to quantum field theory are given. The concluding remarks point at further possible developments. | 翻訳日:2024-09-07 03:32:19 公開日:2024-09-03 |
# SpiralMLP:軽量ビジョンMLPアーキテクチャ
SpiralMLP: A Lightweight Vision MLP Architecture ( http://arxiv.org/abs/2404.00648v2 ) ライセンス: Link先を確認 | Haojie Mu, Burhan Ul Tayyab, Nicholas Chua, | (参考訳) 本稿では,従来のToken Mixing手法の代替として,Spiral FC層を導入した新しいアーキテクチャであるSpralMLPを提案する。
主に軸を強調する既存のMLPベースのモデルとは違い、スパイラルFC層はスパイラルのようなオフセットを持つ変形可能な畳み込み層として設計されている。
さらにSpiral FCとCross-Spiral FCの2つのバリエーションに適応し、ローカルとグローバルの両方の機能統合をシームレスに実現し、追加の処理ステップを不要にします。
スパイラル状のオフセットの有効性を徹底的に検討し,設計を検証するために,アブレーション研究を行い,最適構成を探索する。
実証テストでは、SpiralMLPはTransformers、CNN、その他のMLPと同様に最先端のパフォーマンスに達し、ImageNet-1k、COCO、ADE20Kでベンチマークを行う。
SpiralMLPは依然として線形計算複雑性O(HW)を維持しており、様々な入力画像解像度と互換性がある。
本研究は, 高い性能を達成するためには, 完全な受容領域を目標にすることが不可欠ではなく, 改良されたアプローチを採用することが, より良い結果をもたらすことを明らかにした。
We present SpiralMLP, a novel architecture that introduces a Spiral FC layer as a replacement for the conventional Token Mixing approach. Differing from several existing MLP-based models that primarily emphasize axes, our Spiral FC layer is designed as a deformable convolution layer with spiral-like offsets. We further adapt Spiral FC into two variants: Self-Spiral FC and Cross-Spiral FC, which enable both local and global feature integration seamlessly, eliminating the need for additional processing steps. To thoroughly investigate the effectiveness of the spiral-like offsets and validate our design, we conduct ablation studies and explore optimal configurations. In empirical tests, SpiralMLP reaches state-of-the-art performance, similar to Transformers, CNNs, and other MLPs, benchmarking on ImageNet-1k, COCO and ADE20K. SpiralMLP still maintains linear computational complexity O(HW) and is compatible with varying input image resolutions. Our study reveals that targeting the full receptive field is not essential for achieving high performance, instead, adopting a refined approach offers better results. | 翻訳日:2024-09-07 03:32:18 公開日:2024-09-03 |
# GISR:シングルビューロボットマップのための幾何学的初期化とシルエットに基づくリファインメントと構成推定
GISR: Geometric Initialization and Silhouette-based Refinement for Single-View Robot Pose and Configuration Estimation ( http://arxiv.org/abs/2405.04890v2 ) ライセンス: Link先を確認 | Ivan Bilić, Filip Marić, Fabio Bonsignorio, Ivan Petrović, | (参考訳) 自律ロボット工学では、ロボットの内部状態の測定と、協調ロボットのような他のエージェントとの相互作用を含む環境の認識が不可欠である。
ロボットアームのポーズを単一の視点から推定することは、古典的な視線と手動のキャリブレーションのアプローチを置き換える可能性があり、特にオンライン推定や動的環境において魅力的である。
そのポーズに加えて、ロボット構成の復元は、高度なロボティクスのユースケースにおける他のエージェントの行動を予測するために使用できる観察されたロボットの完全な空間的理解を提供する。
さらに、この追加冗長性により、センサ障害や外部障害の場合に、リカバリプロトコルの計画と実行が可能になる。
本稿では,リアルタイムに実行を優先する深層構成とロボット対カメラのポーズ推定手法GISRを紹介する。
GISRは2つのモジュールから構成される。
一 近似ロボットのポーズ及び構成を効率的に計算する幾何学的初期化モジュール
(ii) 数回のイテレーションで最終解に到達したディープイテレーティブなシルエットベースのリファインメントモジュール。
我々は、GISRを公開データ上で評価し、速度と精度の両面で、同一クラスの既存手法よりも優れており、地道な受容に依存してポーズのみを復元するアプローチと競合できることを示す。
In autonomous robotics, measurement of the robot's internal state and perception of its environment, including interaction with other agents such as collaborative robots, are essential. Estimating the pose of the robot arm from a single view has the potential to replace classical eye-to-hand calibration approaches and is particularly attractive for online estimation and dynamic environments. In addition to its pose, recovering the robot configuration provides a complete spatial understanding of the observed robot that can be used to anticipate the actions of other agents in advanced robotics use cases. Furthermore, this additional redundancy enables the planning and execution of recovery protocols in case of sensor failures or external disturbances. We introduce GISR - a deep configuration and robot-to-camera pose estimation method that prioritizes execution in real-time. GISR consists of two modules: (i) a geometric initialization module that efficiently computes an approximate robot pose and configuration, and (ii) a deep iterative silhouette-based refinement module that arrives at a final solution in just a few iterations. We evaluate GISR on publicly available data and show that it outperforms existing methods of the same class in terms of both speed and accuracy, and can compete with approaches that rely on ground-truth proprioception and recover only the pose. | 翻訳日:2024-09-07 03:12:50 公開日:2024-09-03 |
# 選好学習アルゴリズムは選好ランキングを学習しない
Preference Learning Algorithms Do Not Learn Preference Rankings ( http://arxiv.org/abs/2405.19534v2 ) ライセンス: Link先を確認 | Angelica Chen, Sadhika Malladi, Lily H. Zhang, Xinyi Chen, Qiuyi Zhang, Rajesh Ranganath, Kyunghyun Cho, | (参考訳) 優先学習アルゴリズム(例えば、RLHFやDPO)は、LLMを操り、人間に好まれる世代を生成するために頻繁に使われていますが、その内部動作に対する私たちの理解は限定的です。
そこで本研究では,選好学習モデルを用いて,好ましくない出力よりも好ましくない出力により高い確率を割り当てる従来の知恵を,$\textit{ ranking accuracy}$で測定した。
驚いたことに、ほとんどの最先端の選好調整モデルでは、一般的な選好データセットでは60%未満のランキング精度が得られる。
さらに、DPO や RLHF の目的を完璧に最適化すれば、優先順位調整 LLM が達成できるという $\textit{idealized ranking accuracy}$ を導出する。
我々は既存のモデルが有意な$\textit{alignment gap}$ -- $\textit{i.e.}$を示すことを示した。
提案手法は,参照モデルにおける微妙なランク付け誤りの修正に経験的かつ理論的に不適なDPO目的に起因し,与えられた選好データポイントの学習の難しさを定量化するための単純かつ効率的な公式を導出する。
最後に、評価精度は、モデルが目的の基準モデルに近い場合に、経験的に人気の高い利率指標と強く相関し、オン・ポリティ(例えば、RLHF)とオフ・ポリティ(例えば、DPO)の選好学習アルゴリズムの違いにさらに光を当てることを示した。
Preference learning algorithms (e.g., RLHF and DPO) are frequently used to steer LLMs to produce generations that are more preferred by humans, but our understanding of their inner workings is still limited. In this work, we study the conventional wisdom that preference learning trains models to assign higher likelihoods to more preferred outputs than less preferred outputs, measured via $\textit{ranking accuracy}$. Surprisingly, we find that most state-of-the-art preference-tuned models achieve a ranking accuracy of less than 60% on common preference datasets. We furthermore derive the $\textit{idealized ranking accuracy}$ that a preference-tuned LLM would achieve if it optimized the DPO or RLHF objective perfectly. We demonstrate that existing models exhibit a significant $\textit{alignment gap}$ -- $\textit{i.e.}$, a gap between the observed and idealized ranking accuracies. We attribute this discrepancy to the DPO objective, which is empirically and theoretically ill-suited to fix even mild ranking errors in the reference model, and derive a simple and efficient formula for quantifying the difficulty of learning a given preference datapoint. Finally, we demonstrate that ranking accuracy strongly correlates with the empirically popular win rate metric when the model is close to the reference model used in the objective, shedding further light on the differences between on-policy (e.g., RLHF) and off-policy (e.g., DPO) preference learning algorithms. | 翻訳日:2024-09-07 02:44:29 公開日:2024-09-03 |
# Zyda: オープン言語モデリングのための1.3Tデータセット
Zyda: A 1.3T Dataset for Open Language Modeling ( http://arxiv.org/abs/2406.01981v2 ) ライセンス: Link先を確認 | Yury Tokpanov, Beren Millidge, Paolo Glorioso, Jonathan Pilault, Adam Ibrahim, James Whittington, Quentin Anthony, | (参考訳) 近年,大規模言語モデル (LLM) の規模は劇的に拡大しており,その計算量やデータ要求量は増加傾向にある。
最先端の言語モデルは、比較的小さなサイズであっても、通常、少なくとも1兆トークンのトレーニングを必要とします。
この急速な進歩は、大規模LLM事前トレーニングで利用可能なオープンソースデータセットの成長を超えている。
本稿では,1.3兆のトークンからなるパーミッシブ・ライセンス下のデータセットであるZyda(Zyphra Dataset)を紹介する。
厳密なフィルタリングと復号化プロセスを適用して、元のデータセットから派生した品質を維持し、強化する。
我々の評価によると、ZydaはDolma、FinalWeb、RefinedWebといった他のオープンデータセットと競合するだけでなく、Pythiaスイートの同等モデルの性能を大幅に改善している。
我々の厳密なデータ処理手法は、Zydaの有効性を著しく向上させ、独立して使用する場合、その構成データセットの最高のものよりも優れています。
The size of large language models (LLMs) has scaled dramatically in recent years and their computational and data requirements have surged correspondingly. State-of-the-art language models, even at relatively smaller sizes, typically require training on at least a trillion tokens. This rapid advancement has eclipsed the growth of open-source datasets available for large-scale LLM pretraining. In this paper, we introduce Zyda (Zyphra Dataset), a dataset under a permissive license comprising 1.3 trillion tokens, assembled by integrating several major respected open-source datasets into a single, high-quality corpus. We apply rigorous filtering and deduplication processes, both within and across datasets, to maintain and enhance the quality derived from the original datasets. Our evaluations show that Zyda not only competes favorably with other open datasets like Dolma, FineWeb, and RefinedWeb, but also substantially improves the performance of comparable models from the Pythia suite. Our rigorous data processing methods significantly enhance Zyda's effectiveness, outperforming even the best of its constituent datasets when used independently. | 翻訳日:2024-09-07 02:44:29 公開日:2024-09-03 |
# ハギングフェイスについて何を知っているか : 体系的な文献レビューと質的クレームの定量的検証
What do we know about Hugging Face? A systematic literature review and quantitative validation of qualitative claims ( http://arxiv.org/abs/2406.08205v2 ) ライセンス: Link先を確認 | Jason Jones, Wenxin Jiang, Nicholas Synovic, George K. Thiruvathukal, James C. Davis, | (参考訳) 背景:SPR(Collaborative Software Package Registries)はソフトウェアサプライチェーンの不可欠な部分です。
多くのエンジニアリング作業はSPRパッケージをアプリケーションに合成する。
これまでの研究では、NPM(JavaScript)やPyPI(Python)といった従来のソフトウェア向けのSPRを調査してきた。
事前学習モデル(PTM)登録は、深層学習サプライチェーンをサポートするため、重要度の高いSPRの新たなクラスである。
Aims: 最近の実証研究は、脆弱性、再利用プロセス、進化などの方法で、PTMレジストリを調査しています。
しかし、現在の知識を体系的に理解するために、既存の研究がそれらを合成することはない。
現存する研究のいくつかは、定量分析を欠いた定性的な主張を含んでいる。
我々の研究は、知識合成と定量的分析を提供することで、これらのギャップを埋める。
方法:まず,系統的な文献レビュー(SLR)を行う。
そして、いくつかの主張が質的なものであることを観察する。
これらのクレームに関連する定量メトリクスを特定し、これらのクレームを裏付けるために測定する。
結果: 当社のSLRでは,HuggingFaceプラットフォーム上でのPTM再利用に関する12の主張を特定しました。
これらの主張のうち3つを定量的解析によって検証し、それらを従来のソフトウェアと直接比較することに成功した。
定量的な測定で定性的クレームを裏付ける結果が得られた。
その結果, (1) PTM は従来のソフトウェアよりもはるかに高いターンオーバー率を示し, PTM エコシステム内の動的かつ急速に進化する再利用環境を示し, (2) ドキュメントの品質と PTM の人気との間には強い相関関係があることがわかった。
結論: 定性研究の主張を具体的な指標で確認し, 定性研究とケーススタディ研究の先行支援を行う。
提案手法は, PTM の再利用, 研究インフラの活性化, 新たな対策のさらなるダイナミクスを示すものである。
Background: Collaborative Software Package Registries (SPRs) are an integral part of the software supply chain. Much engineering work synthesizes SPR package into applications. Prior research has examined SPRs for traditional software, such as NPM (JavaScript) and PyPI (Python). Pre-Trained Model (PTM) Registries are an emerging class of SPR of increasing importance, because they support the deep learning supply chain. Aims: Recent empirical research has examined PTM registries in ways such as vulnerabilities, reuse processes, and evolution. However, no existing research synthesizes them to provide a systematic understanding of the current knowledge. Some of the existing research includes qualitative claims lacking quantitative analysis. Our research fills these gaps by providing a knowledge synthesis and quantitative analyses. Methods: We first conduct a systematic literature review (SLR). We then observe that some of the claims are qualitative. We identify quantifiable metrics associated with those claims, and measure in order to substantiate these claims. Results: From our SLR, we identify 12 claims about PTM reuse on the HuggingFace platform, 4 of which lack quantitative validation. We successfully test 3 of these claims through a quantitative analysis, and directly compare one with traditional software. Our findings corroborate qualitative claims with quantitative measurements. Our findings are: (1) PTMs have a much higher turnover rate than traditional software, indicating a dynamic and rapidly evolving reuse environment within the PTM ecosystem; and (2) There is a strong correlation between documentation quality and PTM popularity. Conclusions: We confirm qualitative research claims with concrete metrics, supporting prior qualitative and case study research. Our measures show further dynamics of PTM reuse, inspiring research infrastructure and new measures. | 翻訳日:2024-09-07 02:31:44 公開日:2024-09-03 |
# ハイブリッドペイオフ付き線形コンテキスト帯域:再考
Linear Contextual Bandits with Hybrid Payoff: Revisited ( http://arxiv.org/abs/2406.10131v2 ) ライセンス: Link先を確認 | Nirjhar Das, Gaurav Sinha, | (参考訳) ハイブリッド報酬設定における線形文脈帯域問題について検討する。
この設定では、各アームの報酬モデルには、すべてのアームの報酬モデル間で共有されるパラメータに加えて、アーム固有のパラメータが含まれる。
この設定を2つの密接に関連する設定に減らすことができます
(a)共有 - 腕固有のパラメータがなく、
b) Disjoint - アーム固有のパラメータのみを使用し、2つの一般的な最先端アルゴリズム($\texttt{LinUCB}$と$\texttt{DisLinUCB}$(Algorithm 1 in (Li et al 2010))を適用可能にする。
腕の特徴が確率的であり、一般的な多様性条件を満たす場合、両アルゴリズムに新たな後悔分析を提供し、これらのアルゴリズムの既知の後悔の保証を著しく改善する。
本稿では,ハイブリッド報酬構造と多様性条件を批判的に活用する。
さらに, ハイブリッド環境における疎度を考慮に入れた新たなアルゴリズムである $\texttt{HyLinUCB}$ を導入する。
同じ多様性の仮定の下では、$\texttt{HyLinUCB}$もまた$O(\sqrt{T})$ regret for $T$ roundsを発生させる。
我々は,合成および実世界のデータセットに対して,$\texttt{HyLinUCB}$の強い経験的性能を示す広範な実験を行った。
共有パラメータの数よりもはるかに大きいアーム特定パラメータの数に対して、$\texttt{DisLinUCB}$が最小の後悔を引き起こす。
この場合、$\texttt{HyLinUCB}$に対する後悔は、$\texttt{DisLinUCB}$に対する2番目の最良の競合である。
実世界のデータセットを含む他の状況では、$\texttt{HyLinUCB}$は、$\textt{LinUCB}$、$\texttt{DisLinUCB}$、その他のSOTAベースラインよりも大幅に低い。
また、例えば$\texttt{HyLinUCB}$の後悔は、ベースラインよりも腕の数が多いほど遅くなり、非常に大きなアクション空間にも適していることを実証的に観察する。
We study the Linear Contextual Bandit problem in the hybrid reward setting. In this setting every arm's reward model contains arm specific parameters in addition to parameters shared across the reward models of all the arms. We can reduce this setting to two closely related settings (a) Shared - no arm specific parameters, and (b) Disjoint - only arm specific parameters, enabling the application of two popular state of the art algorithms - $\texttt{LinUCB}$ and $\texttt{DisLinUCB}$ (Algorithm 1 in (Li et al. 2010)). When the arm features are stochastic and satisfy a popular diversity condition, we provide new regret analyses for both algorithms, significantly improving on the known regret guarantees of these algorithms. Our novel analysis critically exploits the hybrid reward structure and the diversity condition. Moreover, we introduce a new algorithm $\texttt{HyLinUCB}$ that crucially modifies $\texttt{LinUCB}$ (using a new exploration coefficient) to account for sparsity in the hybrid setting. Under the same diversity assumptions, we prove that $\texttt{HyLinUCB}$ also incurs only $O(\sqrt{T})$ regret for $T$ rounds. We perform extensive experiments on synthetic and real-world datasets demonstrating strong empirical performance of $\texttt{HyLinUCB}$.For number of arm specific parameters much larger than the number of shared parameters, we observe that $\texttt{DisLinUCB}$ incurs the lowest regret. In this case, regret of $\texttt{HyLinUCB}$ is the second best and extremely competitive to $\texttt{DisLinUCB}$. In all other situations, including our real-world dataset, $\texttt{HyLinUCB}$ has significantly lower regret than $\texttt{LinUCB}$, $\texttt{DisLinUCB}$ and other SOTA baselines we considered. We also empirically observe that the regret of $\texttt{HyLinUCB}$ grows much slower with the number of arms compared to baselines, making it suitable even for very large action spaces. | 翻訳日:2024-09-07 02:31:44 公開日:2024-09-03 |
# Responsible Foundation Model Development Cheatsheet: ツールとリソースのレビュー
The Responsible Foundation Model Development Cheatsheet: A Review of Tools & Resources ( http://arxiv.org/abs/2406.16746v3 ) ライセンス: Link先を確認 | Shayne Longpre, Stella Biderman, Alon Albalak, Hailey Schoelkopf, Daniel McDuff, Sayash Kapoor, Kevin Klyman, Kyle Lo, Gabriel Ilharco, Nay San, Maribeth Rauh, Aviya Skowron, Bertie Vidgen, Laura Weidinger, Arvind Narayanan, Victor Sanh, David Adelani, Percy Liang, Rishi Bommasani, Peter Henderson, Sasha Luccioni, Yacine Jernite, Luca Soldaini, | (参考訳) ファンデーションモデル開発は、急速に成長するコントリビュータ、科学者、アプリケーションを引き付けている。
私たちは、責任ある開発プラクティスを形作るのに役立つために、Foundation Model Development Cheatsheetを紹介します。
私たちは、インフォームドデータの選択、処理、理解、正確で制限対応のアーティファクトドキュメント、効率的なモデルトレーニング、トレーニングからの環境影響の認識の促進、能力、リスク、クレームの慎重なモデル評価、責任あるモデルリリース、ライセンス、デプロイメントプラクティスをサポートするリソース(ソフトウェア、ドキュメント、フレームワーク、ガイド、実用的なツールなど)を調査するための、多くの事前作業に取り組んでいます。
このキュレートされたリソースの収集が、より責任ある開発を導くのに役立つことを願っています。
このリストをキュレートするプロセスにより、AI開発エコシステムをレビューし、既存のプラクティスに欠落しているツール、誤用、あるいは過剰使用されているツールを明らかにしました。
私たちはそれを見つける。
(i)データソーシング、モデル評価、モニタリングのためのツールは、倫理的・現実的なニーズに過小評価されている。
(二)モデル安全性、能力、環境影響の評価には再現性と透明性が欠如している。
三 テキスト、特に英語を中心とした分析が多言語・多モーダル分析に支配され続けていること。
(4)単にモデルではなくシステムの評価が必要であり、その能力と影響が文脈で評価される。
Foundation model development attracts a rapidly expanding body of contributors, scientists, and applications. To help shape responsible development practices, we introduce the Foundation Model Development Cheatsheet: a growing collection of 250+ tools and resources spanning text, vision, and speech modalities. We draw on a large body of prior work to survey resources (e.g. software, documentation, frameworks, guides, and practical tools) that support informed data selection, processing, and understanding, precise and limitation-aware artifact documentation, efficient model training, advance awareness of the environmental impact from training, careful model evaluation of capabilities, risks, and claims, as well as responsible model release, licensing and deployment practices. We hope this curated collection of resources helps guide more responsible development. The process of curating this list, enabled us to review the AI development ecosystem, revealing what tools are critically missing, misused, or over-used in existing practices. We find that (i) tools for data sourcing, model evaluation, and monitoring are critically under-serving ethical and real-world needs, (ii) evaluations for model safety, capabilities, and environmental impact all lack reproducibility and transparency, (iii) text and particularly English-centric analyses continue to dominate over multilingual and multi-modal analyses, and (iv) evaluation of systems, rather than just models, is needed so that capabilities and impact are assessed in context. | 翻訳日:2024-09-07 02:22:00 公開日:2024-09-03 |
# TrialBench: マルチモーダル人工知能対応の臨床試験データセット
TrialBench: Multi-Modal Artificial Intelligence-Ready Clinical Trial Datasets ( http://arxiv.org/abs/2407.00631v2 ) ライセンス: Link先を確認 | Jintai Chen, Yaojun Hu, Yue Wang, Yingzhou Lu, Xu Cao, Miao Lin, Hongxia Xu, Jian Wu, Cao Xiao, Jimeng Sun, Lucas Glass, Kexin Huang, Marinka Zitnik, Tianfan Fu, | (参考訳) 臨床試験は、新しい治療を開発する上で重要であるが、通常、患者死亡、有害事象、そして10年以上にわたる無駄な努力を無駄にすることの失敗など、いくつかのリスクを生じさせる。
人工知能(AI)を用いて臨床試験の重要な出来事を予測またはシミュレートすることは、トライアルデザインをガイドするための洞察を提供する大きな可能性を持つ。
しかし、複雑なデータ収集と専門知識とトライアルデザインの深い理解を必要とする質問定義は、これまでAIの関与を妨げてきた。
本稿では,多要素データ(例えば,薬物分子,疾患コード,テキスト,分類・数値特徴)を包括的に収集したAIreadyデータセットと,治験期間の予測,患者退院率,重篤事象,死亡率,治験承認結果,薬物線量検出,適度基準の設計を含む,臨床試験設計における8つの重要な予測課題を提示することにより,これらの課題に対処する。
さらに、データセットのユーザビリティと信頼性を確保するため、各タスクに基本的な検証方法を提供する。
このようなオープンアクセスデータセットが利用可能になると、臨床試験設計のための高度なAIアプローチの開発が促進され、最終的に臨床試験研究が進展し、医療ソリューション開発が加速すると予想する。
キュレートされたデータセット、メトリクス、基本モデルはhttps://github.com/ML2Health/ML2ClinicalTrials/tree/main/AI4Trialで公開されている。
Clinical trials are pivotal for developing new medical treatments, yet they typically pose some risks such as patient mortality, adverse events, and enrollment failure that waste immense efforts spanning over a decade. Applying artificial intelligence (AI) to forecast or simulate key events in clinical trials holds great potential for providing insights to guide trial designs. However, complex data collection and question definition requiring medical expertise and a deep understanding of trial designs have hindered the involvement of AI thus far. This paper tackles these challenges by presenting a comprehensive suite of meticulously curated AIready datasets covering multi-modal data (e.g., drug molecule, disease code, text, categorical/numerical features) and 8 crucial prediction challenges in clinical trial design, encompassing prediction of trial duration, patient dropout rate, serious adverse event, mortality rate, trial approval outcome, trial failure reason, drug dose finding, design of eligibility criteria. Furthermore, we provide basic validation methods for each task to ensure the datasets' usability and reliability. We anticipate that the availability of such open-access datasets will catalyze the development of advanced AI approaches for clinical trial design, ultimately advancing clinical trial research and accelerating medical solution development. The curated dataset, metrics, and basic models are publicly available at https://github.com/ML2Health/ML2ClinicalTrials/tree/main/AI4Trial. | 翻訳日:2024-09-07 02:22:00 公開日:2024-09-03 |
# オフライン-オンライン強化学習のためのエネルギー誘導拡散サンプリング
Energy-Guided Diffusion Sampling for Offline-to-Online Reinforcement Learning ( http://arxiv.org/abs/2407.12448v2 ) ライセンス: Link先を確認 | Xu-Hui Liu, Tian-Shuo Liu, Shengyi Jiang, Ruifeng Chen, Zhilong Zhang, Xinwei Chen, Yang Yu, | (参考訳) オフラインとオンラインの強化学習(RL)技術を組み合わせることは、データ取得が高価である効率的な安全な学習を実現する上で、本当に重要です。
既存の方法はオフラインデータをオンラインフェーズで直接再生するので、データ分散シフトの大きな課題となり、オンラインの微調整では非効率になる。
この問題に対処するため,我々は,オフラインデータセットから事前知識を抽出する拡散モデルを用いて,この知識をオンラインフェーズにおける拡張データ生成のために抽出するためにエネルギー関数を利用する,革新的アプローチである『textbf{E}nergy-guided \textbf{DI}ffusion \textbf{S}ampling』(EDIS)を導入する。
この理論解析は、EDISがオンラインデータのみを利用する場合やオフラインデータを直接利用する場合に比べて、最適でないことが示されている。
EDISはプラグインのアプローチであり、オフラインからオフラインのRL設定で既存のメソッドと組み合わせることができる。
既成のメソッドであるCal-QLとIQLにEDISを実装することで、MuJoCo、AntMaze、Adroit環境上での実証的なパフォーマンスの平均20%の改善が目覚ましい。
コードは \url{https://github.com/liuxhym/EDIS} で入手できる。
Combining offline and online reinforcement learning (RL) techniques is indeed crucial for achieving efficient and safe learning where data acquisition is expensive. Existing methods replay offline data directly in the online phase, resulting in a significant challenge of data distribution shift and subsequently causing inefficiency in online fine-tuning. To address this issue, we introduce an innovative approach, \textbf{E}nergy-guided \textbf{DI}ffusion \textbf{S}ampling (EDIS), which utilizes a diffusion model to extract prior knowledge from the offline dataset and employs energy functions to distill this knowledge for enhanced data generation in the online phase. The theoretical analysis demonstrates that EDIS exhibits reduced suboptimality compared to solely utilizing online data or directly reusing offline data. EDIS is a plug-in approach and can be combined with existing methods in offline-to-online RL setting. By implementing EDIS to off-the-shelf methods Cal-QL and IQL, we observe a notable 20% average improvement in empirical performance on MuJoCo, AntMaze, and Adroit environments. Code is available at \url{https://github.com/liuxhym/EDIS}. | 翻訳日:2024-09-07 02:06:01 公開日:2024-09-03 |
# コンテキスト条件付き関節拡散モデルを用いた病理組織学的核画像-ラベルペアの共生
Co-synthesis of Histopathology Nuclei Image-Label Pairs using a Context-Conditioned Joint Diffusion Model ( http://arxiv.org/abs/2407.14434v2 ) ライセンス: Link先を確認 | Seonghui Min, Hyun-Jic Oh, Won-Ki Jeong, | (参考訳) マルチクラスの病理組織学的核解析タスクでは、学習に基づく手法のパフォーマンスにおいて、トレーニングデータの欠如が主要なボトルネックとなっている。
この課題に対処するために, 従来の手法では, 合成サンプルを生成してデータ量を増やすために生成モデルを用いてきた。
しかし、既存の手法は、合成データにおける生体組織(例えば、形状、空間配置、組織型)の文脈を考慮することの重要性をしばしば見落としている。
さらに、生成モデルは、現実的な病理像を合成する上で優れた性能を示してきたが、既存の方法では、画像とラベルのペアを同時に生成することができない。
本稿では,文脈条件付き関節拡散モデルを用いて,病理組織学的核像とペア意味ラベルを共合成する新しい枠組みを提案する。
本研究では,構造関連テキストプロンプトを用いた核セントロイド配置を用いた拡散モデルの条件付けを提案し,空間的・構造的コンテキスト情報を生成対象に組み込む。
さらに、画像やセマンティックラベルと並行して合成された距離マップを用いて、インスタンスワイドな核ラベルを生成することで、セマンティックラベルの粒度を向上する。
我々は,多施設,多施設,多モダリティデータセット上で,高品質なサンプルを作成するためのフレームワークの有効性を実証する。
我々の合成データは、核セグメンテーションと分類の下流タスクにおいて、既存の拡張方法よりも一貫して優れています。
In multi-class histopathology nuclei analysis tasks, the lack of training data becomes a main bottleneck for the performance of learning-based methods. To tackle this challenge, previous methods have utilized generative models to increase data by generating synthetic samples. However, existing methods often overlook the importance of considering the context of biological tissues (e.g., shape, spatial layout, and tissue type) in the synthetic data. Moreover, while generative models have shown superior performance in synthesizing realistic histopathology images, none of the existing methods are capable of producing image-label pairs at the same time. In this paper, we introduce a novel framework for co-synthesizing histopathology nuclei images and paired semantic labels using a context-conditioned joint diffusion model. We propose conditioning of a diffusion model using nucleus centroid layouts with structure-related text prompts to incorporate spatial and structural context information into the generation targets. Moreover, we enhance the granularity of our synthesized semantic labels by generating instance-wise nuclei labels using distance maps synthesized concurrently in conjunction with the images and semantic labels. We demonstrate the effectiveness of our framework in generating high-quality samples on multi-institutional, multi-organ, and multi-modality datasets. Our synthetic data consistently outperforms existing augmentation methods in the downstream tasks of nuclei segmentation and classification. | 翻訳日:2024-09-07 02:06:01 公開日:2024-09-03 |
# 漸近的に安全な言語モデル出力のための発声型確率的解法フレームワーク
A Voter-Based Stochastic Rejection-Method Framework for Asymptotically Safe Language Model Outputs ( http://arxiv.org/abs/2407.16994v2 ) ライセンス: Link先を確認 | Jake R. Watts, Joel Sokol, | (参考訳) 本稿では,LLMの確率性を利用して,安全でない,あるいは低品質な大規模言語モデル(LLM)の出力を防止する手法を提案する。
本稿では,LCMチェッカーが生成した出力の受理性に投票し,不承認のしきい値に達した場合,十分なチェッカーが承認されるまでそれを再生するシステムを提案する。
さらに、コストと故障率の推定器を提案し、アプリケーションに適した実験データとに基づいて、最小限のコストで所望の故障率を達成するアルゴリズムを提案する。
これらのモデルでは, 投票者数と閾値がアルゴリズムによって選択された場合のコスト関数として, 故障率は指数関数的に減少し, 限られたデータであっても, 実際に動作しているシステムの性能を合理的に推定することを示した。
This paper proposes a new method for preventing unsafe or otherwise low quality large language model (LLM) outputs, by leveraging the stochasticity of LLMs. We propose a system whereby LLM checkers vote on the acceptability of a generated output, regenerating it if a threshold of disapproval is reached, until sufficient checkers approve. We further propose estimators for cost and failure rate, and based on those estimators and experimental data tailored to the application, we propose an algorithm that achieves a desired failure rate at the least possible cost. We demonstrate that, under these models, failure rate decreases exponentially as a function of cost when voter count and threshold are chosen according to the algorithm, and that the models reasonably estimate the actual performance of such a system in action, even with limited data. | 翻訳日:2024-09-07 01:49:25 公開日:2024-09-03 |
# パブリック対プライベートボディ:誰が高度なAI評価と監査を行うべきか?ハイリスク産業のケーススタディに基づく3段階論理
Public vs Private Bodies: Who Should Run Advanced AI Evaluations and Audits? A Three-Step Logic Based on Case Studies of High-Risk Industries ( http://arxiv.org/abs/2407.20847v2 ) ライセンス: Link先を確認 | Merlin Stein, Milan Gandhi, Theresa Kriecherbauer, Amin Oueslati, Robert Trager, | (参考訳) 人工知能(AI) 世界中の安全研究所と政府は、先進的なAIを自ら評価し、監査するか、個人監査のエコシステムをサポートするか、両方を行うかを決定した。
監査体制は、企業の規制遵守を監視・評価するために、幅広い産業状況において確立されている。
監査は、テクノロジのリスクを理解し、管理するために必要なガバナンスツールです。
この論文は9つのレジームから情報を得る。
一 先進的AIのどの部分を監査すべきか、及び
二 公共団体が高度なAIを効果的に監査するためにどれくらいの能力が必要か。
第一に、公的・私的な監査人間の効果的な責任配分は、特定の産業や監査条件に大きく依存する。
高度なAIのリスクプロファイル、監査プロセスに関わる情報の感度、AI Labsの安全性と利益の主張を検証するための高いコストに基づいて、我々は、公共団体が特にグレーとホワイトボックスのAIモデル評価に直接関与することを推奨する。
他の業界で確立されたガバナンスとセキュリティ監査、およびブラックボックスモデル評価は、公共の監視下にある評価者や監査人の個人市場によってより効率的に提供される可能性がある。
第二に、高度なAI監査において効果的にその役割を果たすためには、公共機関はモデルや施設への広範なアクセスが必要である。
公共機関の能力は、産業のリスクレベル、規模、市場に集中して拡大し、核の安全性や生命科学など、EUや米国のような大規模な司法管轄区域で監査するために100人の従業員を必要としている可能性がある。
Artificial Intelligence (AI) Safety Institutes and governments worldwide are deciding whether they evaluate and audit advanced AI themselves, support a private auditor ecosystem or do both. Auditing regimes have been established in a wide range of industry contexts to monitor and evaluate firms' compliance with regulation. Auditing is a necessary governance tool to understand and manage the risks of a technology. This paper draws from nine such regimes to inform (i) who should audit which parts of advanced AI; and (ii) how much capacity public bodies may need to audit advanced AI effectively. First, the effective responsibility distribution between public and private auditors depends heavily on specific industry and audit conditions. On the basis of advanced AI's risk profile, the sensitivity of information involved in the auditing process, and the high costs of verifying safety and benefit claims of AI Labs, we recommend that public bodies become directly involved in safety critical, especially gray- and white-box, AI model evaluations. Governance and security audits, which are well-established in other industry contexts, as well as black-box model evaluations, may be more efficiently provided by a private market of evaluators and auditors under public oversight. Secondly, to effectively fulfill their role in advanced AI audits, public bodies need extensive access to models and facilities. Public bodies' capacity should scale with the industry's risk level, size and market concentration, potentially requiring 100s of employees for auditing in large jurisdictions like the EU or US, like in nuclear safety and life sciences. | 翻訳日:2024-09-07 01:49:25 公開日:2024-09-03 |
# IDNet:ID文書分析と不正検出のための新しいデータセット
IDNet: A Novel Dataset for Identity Document Analysis and Fraud Detection ( http://arxiv.org/abs/2408.01690v2 ) ライセンス: Link先を確認 | Hong Guan, Yancheng Wang, Lulu Xie, Soham Nag, Rajeev Goel, Niranjan Erappa Narayana Swamy, Yingzhen Yang, Chaowei Xiao, Jonathan Prisby, Ross Maciejewski, Jia Zou, | (参考訳) パスポート、運転免許証、IDカードなどの政府発行のID文書の効果的な不正検出と分析は、オンラインプラットフォームにおけるID盗難の防止とセキュリティ強化に不可欠である。
正確な不正検出と分析ツールのトレーニングは、広範囲のIDドキュメントデータセットの可用性に依存する。
しかし、MIDV-500、MIDV-2020、FMIDVなどの現在の公開ベンチマークデータセットは、限られた数のサンプルを提供し、不正パターンの不十分なバリエーションをカバーし、ポートレートイメージのような重要な個人識別領域の変更をほとんど含んでおらず、プライバシーを保護しながら現実的な詐欺を検知する訓練モデルにおける彼らの有用性を制限している。
これらの欠点に対応するために,本研究では,プライバシ保護不正検出を推進すべく,新たなベンチマークデータセットであるIDNetを導入する。
IDNetデータセットは、合成生成されたID文書の837,060枚の画像で構成され、合計で490ギガバイトであり、米国10ドルと欧州10カ国から20種類に分類されている。
本稿では,プライバシ保護による不正検出方法のトレーニング,カメラの生成,アイデンティティドキュメントのキャプチャ,スキーマ統一やその他のIDドキュメント管理機能のテストなど,データセットの有用性と利用事例を評価した。
Effective fraud detection and analysis of government-issued identity documents, such as passports, driver's licenses, and identity cards, are essential in thwarting identity theft and bolstering security on online platforms. The training of accurate fraud detection and analysis tools depends on the availability of extensive identity document datasets. However, current publicly available benchmark datasets for identity document analysis, including MIDV-500, MIDV-2020, and FMIDV, fall short in several respects: they offer a limited number of samples, cover insufficient varieties of fraud patterns, and seldom include alterations in critical personal identifying fields like portrait images, limiting their utility in training models capable of detecting realistic frauds while preserving privacy. In response to these shortcomings, our research introduces a new benchmark dataset, IDNet, designed to advance privacy-preserving fraud detection efforts. The IDNet dataset comprises 837,060 images of synthetically generated identity documents, totaling approximately 490 gigabytes, categorized into 20 types from $10$ U.S. states and 10 European countries. We evaluate the utility and present use cases of the dataset, illustrating how it can aid in training privacy-preserving fraud detection methods, facilitating the generation of camera and video capturing of identity documents, and testing schema unification and other identity document management functionalities. | 翻訳日:2024-09-07 01:49:25 公開日:2024-09-03 |
# 虚血性低酸素性脳損傷と低血糖性脳損傷によるてんかんの多段階融合による比較
Comparison of Epilepsy Induced by Ischemic Hypoxic Brain Injury and Hypoglycemic Brain Injury using Multilevel Fusion of Data Features ( http://arxiv.org/abs/2409.02957v1 ) ライセンス: Link先を確認 | Sameer Kadem, Noor Sami, Ahmed Elaraby, Shahad Alyousif, Mohammed Jalil, M. Altaee, Muntather Almusawi, A. Ghany Ismaeel, Ali Kamil Kareem, Massila Kamalrudin, Adnan Allwi ftaiet, | (参考訳) 本研究は、低酸素虚血(HI)、低血糖、てんかんによる脳損傷の類似性と相違について検討することを目的とする。
低血糖はインスリン治療患者の血糖調節を改善する上で重要な課題であり、新生児のHI脳疾患は低酸素血症と関連している。
本研究は,医療データと脳波測定を組み合わせた2年間の成果予測の可能性について検討した。
この研究は、予測の精度を高めるために、多段階のデータ特徴の融合を用いる。
そこで本研究では,低酸素血症と低血糖,てんかん性脳損傷(HCM-BI)のハイブリッド分類モデルを提案する。
各乳児の低酸素-虚血結果を定義するために,サポートベクターマシンを臨床詳細に適用した。
新生児は神経発達の結果を知るために2年ごとに評価される。
4つの属性の選択は脳波記録から導かれ、SVMは疾患の分類に関する結論を得ない。
脳波信号の最終的な特徴抽出は、低血糖とてんかん患者の明確な健康状態を得るためにベイズニューラルネットワーク(BNN)によって最適化されている。
脳波による身体効果のモニタリングと評価を通じて、ベイジアンニューラルネットワーク(BNN)は、最もログの少ないデータを用いてテストサンプルを抽出し、低血糖とてんかんのキーワード、低血糖、低血糖、てんかん、多段階データ特徴融合、ベイジアンニューラルネットワーク(BNN)、サポートベクトルマシン(SVM)を報告するために使用される。
The study aims to investigate the similarities and differences in the brain damage caused by Hypoxia-Ischemia (HI), Hypoglycemia, and Epilepsy. Hypoglycemia poses a significant challenge in improving glycemic regulation for insulin-treated patients, while HI brain disease in neonates is associated with low oxygen levels. The study examines the possibility of using a combination of medical data and Electroencephalography (EEG) measurements to predict outcomes over a two-year period. The study employs a multilevel fusion of data features to enhance the accuracy of the predictions. Therefore this paper suggests a hybridized classification model for Hypoxia-Ischemia and Hypoglycemia, Epilepsy brain injury (HCM-BI). A Support Vector Machine is applied with clinical details to define the Hypoxia-Ischemia outcomes of each infant. The newborn babies are assessed every two years again to know the neural development results. A selection of four attributes is derived from the Electroencephalography records, and SVM does not get conclusions regarding the classification of diseases. The final feature extraction of the EEG signal is optimized by the Bayesian Neural Network (BNN) to get the clear health condition of Hypoglycemia and Epilepsy patients. Through monitoring and assessing physical effects resulting from Electroencephalography, The Bayesian Neural Network (BNN) is used to extract the test samples with the most log data and to report hypoglycemia and epilepsy Keywords- Hypoxia-Ischemia , Hypoglycemia , Epilepsy , Multilevel Fusion of Data Features , Bayesian Neural Network (BNN) , Support Vector Machine (SVM) | 翻訳日:2024-09-07 01:16:35 公開日:2024-09-03 |
# 視覚言語モデルのためのマルチモーダル適応器
Multi-Modal Adapter for Vision-Language Models ( http://arxiv.org/abs/2409.02958v1 ) ライセンス: Link先を確認 | Dominykas Seputis, Serghei Mihailov, Soham Chatterjee, Zehao Xiao, | (参考訳) CLIPのような大規模な事前学習された視覚言語モデルは、訓練を必要とせず、幅広い画像分類タスクで最先端のパフォーマンスを実証している。
ダウンストリームタスクでトレーニングされた既存の特殊なアーキテクチャと競合するショットは少ない。
近年の研究では、軽量適応手法によりCLIPの性能をさらに改善できることが示されている。
しかし、従来の手法は、視覚的表現とテキスト表現の相互作用や関係を無視して、個別にCLIPモデルの異なるモダリティに適応する。
本稿では,CLIPのマルチモーダル適応手法であるMulti-Modal Adapterを提案する。
具体的には、テキストと画像の特徴を組み合わせたトレーニング可能なマルチヘッドアテンション層を追加し、両方の追加適応を生成します。
Multi-Modal Adapterは、既存の適応手法と比較して、目に見えないクラスのパフォーマンスに基づいて、一般化性の向上を示す。
提案手法を検証し,解釈するために,追加のアブリケーションと調査を行う。
Large pre-trained vision-language models, such as CLIP, have demonstrated state-of-the-art performance across a wide range of image classification tasks, without requiring retraining. Few-shot CLIP is competitive with existing specialized architectures that were trained on the downstream tasks. Recent research demonstrates that the performance of CLIP can be further improved using lightweight adaptation approaches. However, previous methods adapt different modalities of the CLIP model individually, ignoring the interactions and relationships between visual and textual representations. In this work, we propose Multi-Modal Adapter, an approach for Multi-Modal adaptation of CLIP. Specifically, we add a trainable Multi-Head Attention layer that combines text and image features to produce an additive adaptation of both. Multi-Modal Adapter demonstrates improved generalizability, based on its performance on unseen classes compared to existing adaptation methods. We perform additional ablations and investigations to validate and interpret the proposed approach. | 翻訳日:2024-09-07 01:16:35 公開日:2024-09-03 |
# インセンティブの自動調整による複数エージェントの管理
Managing multiple agents by automatically adjusting incentives ( http://arxiv.org/abs/2409.02960v1 ) ライセンス: Link先を確認 | Shunichi Akatsuka, Yaemi Teramoto, Aaron Courville, | (参考訳) 今後数年間、AIエージェントは、多くの異なる人々のグループに関わる状況を含む、より複雑な意思決定に使用されるだろう。
ひとつ大きな課題は、AIエージェントが自分自身の興味を持って行動する傾向があることです。
本稿では,社会全体に利益をもたらす目標に向けて,利己的なエージェントを働かせる方法を検討する。
本研究では,特定の行動にインセンティブを割り当てることで,エージェントのインタラクションを仲介するマネージャエージェントを追加する手法を提案する。
本手法をサプライチェーン管理問題で検証し,(1)生報酬を22.2%増加させ,(2)エージェントの報酬を23.8%増加させ,(3)管理者の報酬を20.1%増加させることを示した。
In the coming years, AI agents will be used for making more complex decisions, including in situations involving many different groups of people. One big challenge is that AI agent tends to act in its own interest, unlike humans who often think about what will be the best for everyone in the long run. In this paper, we explore a method to get self-interested agents to work towards goals that benefit society as a whole. We propose a method to add a manager agent to mediate agent interactions by assigning incentives to certain actions. We tested our method with a supply-chain management problem and showed that this framework (1) increases the raw reward by 22.2%, (2) increases the agents' reward by 23.8%, and (3) increases the manager's reward by 20.1%. | 翻訳日:2024-09-07 01:16:35 公開日:2024-09-03 |
# 量子ウェーブレット:言葉のない証明(ほとんど)
Quantum wavepackets: Proofs (almost) without words ( http://arxiv.org/abs/2409.02962v1 ) ライセンス: Link先を確認 | Yuxi Liu, | (参考訳) 量子力学の位相空間定式化を用いて自由空間における波動関数のダイナミクスを理解する幾何学的方法を提案する。
ウィグナー関数を可視化することにより、波動関数の拡散、せん断、いわゆる「負の確率フロー」および長時間の漸近分散を視覚的に阻害する。
これらの結果は、新しいものではなく、以前の導出は分析的であったのに対し、本論文では、ほとんど「言葉のない防備」であり、量子力学の第1コースに適した基本的な幾何学的議論を提示する。
We present a geometrical way of understanding the dynamics of wavefunctions in a free space, using the phase-space formulation of quantum mechanics. By visualizing the Wigner function, the spreading, shearing, the so-called "negative probability flow" of wavefunctions, and the long-time asymptotic dispersion, are intuited visually. These results are not new, but previous derivations were analytical, whereas this paper presents elementary geometric arguments that are almost "proofs without words", and suitable for a first course in quantum mechanics. | 翻訳日:2024-09-07 01:16:35 公開日:2024-09-03 |
# パフォーマンスパラメータの機械学習によるインドネシアと西洋のゲーランオーケストラのクラスタリング
Clustering of Indonesian and Western Gamelan Orchestras through Machine Learning of Performance Parameters ( http://arxiv.org/abs/2409.03713v1 ) ライセンス: Link先を確認 | Simon Linke, Gerrit Wendt, Rolf Bader, | (参考訳) インドネシアと西洋のゲーランのアンサンブルは、パフォーマンスの違いに関して調査されている。
これにより、西洋におけるこの音楽のエキゾチックな歴史は、現代の音調体系、調音、大規模な形式の違いに反映される可能性がある。
インドネシアの4つのオーケストラと5つのオーケストラの音調システムと音色の特徴を分析し、自己組織化されたコホーネンマップ(SOM)を機械学習アルゴリズムとして使用し、インドネシアと西洋のアンサンブル間の明確なクラスタリングは特定の精神音響的特徴を用いて現れる。
これらのことは、インドネシアのものと比べ、西洋のアンサンブルの音節化と大規模な形態変化を減らしたことを示している。
SOMはまた、音調系に関してアンサンブルをクラスタリングするが、この点でインドネシアと西洋のアンサンブルの間にクラスターは見つからない。
したがって、低調音変動と大規模形態変化との明確な類似性や、西欧におけるガムランのよりエクソスティックで仲介的で穏やかなパフォーマンス期待と受容の相違が現れる。
Indonesian and Western gamelan ensembles are investigated with respect to performance differences. Thereby, the often exotistic history of this music in the West might be reflected in contemporary tonal system, articulation, or large-scale form differences. Analyzing recordings of four Western and five Indonesian orchestras with respect to tonal systems and timbre features and using self-organizing Kohonen map (SOM) as a machine learning algorithm, a clear clustering between Indonesian and Western ensembles appears using certain psychoacoustic features. These point to a reduced articulation and large-scale form variability of Western ensembles compared to Indonesian ones. The SOM also clusters the ensembles with respect to their tonal systems, but no clusters between Indonesian and Western ensembles can be found in this respect. Therefore, a clear analogy between lower articulatory variability and large-scale form variation and a more exostistic, mediative and calm performance expectation and reception of gamelan in the West therefore appears. | 翻訳日:2024-09-06 19:43:43 公開日:2024-09-03 |
# 音楽生成における人工知能の応用と進歩
Applications and Advances of Artificial Intelligence in Music Generation:A Review ( http://arxiv.org/abs/2409.03715v1 ) ライセンス: Link先を確認 | Yanxu Chen, Linshu Huang, Tian Gou, | (参考訳) 近年、人工知能(AI)は音楽生成の分野で大きな進歩を遂げ、音楽制作と応用の革新を推進している。
本稿では、AI音楽生成における最新の研究成果を体系的にレビューし、鍵となる技術、モデル、データセット、評価方法、および様々な分野におけるそれらの実践的応用について述べる。
本レビューの主な貢献は,(1)記号生成,音声生成,ハイブリッドモデルなど,さまざまな技術アプローチを体系的に分類し比較する総合的な要約フレームワークの提示,(2)分野における技術の全スペクトラムの理解の促進,(2)マルチモーダルデータセットや感情表現評価などの新興トピックの広範な調査,関連研究への広範な参照,(3)リアルタイムインタラクションや学際的応用におけるAI音楽生成の実践的影響の詳細な分析,(4)音楽品質評価手法の既存の課題と限界の要約,および将来的な研究方向性の提案,などである。
本稿では,これらの革新的な要約と分析を通じて,AI音楽生成における研究者や実践者の総合的参照ツールとして機能すると同時に,この分野の今後の方向性を概説する。
In recent years, artificial intelligence (AI) has made significant progress in the field of music generation, driving innovation in music creation and applications. This paper provides a systematic review of the latest research advancements in AI music generation, covering key technologies, models, datasets, evaluation methods, and their practical applications across various fields. The main contributions of this review include: (1) presenting a comprehensive summary framework that systematically categorizes and compares different technological approaches, including symbolic generation, audio generation, and hybrid models, helping readers better understand the full spectrum of technologies in the field; (2) offering an extensive survey of current literature, covering emerging topics such as multimodal datasets and emotion expression evaluation, providing a broad reference for related research; (3) conducting a detailed analysis of the practical impact of AI music generation in various application domains, particularly in real-time interaction and interdisciplinary applications, offering new perspectives and insights; (4) summarizing the existing challenges and limitations of music quality evaluation methods and proposing potential future research directions, aiming to promote the standardization and broader adoption of evaluation techniques. Through these innovative summaries and analyses, this paper serves as a comprehensive reference tool for researchers and practitioners in AI music generation, while also outlining future directions for the field. | 翻訳日:2024-09-06 19:43:43 公開日:2024-09-03 |
# Kolmogorov Arnold Networks in Fraud Detection: Bridging the Gap between Theory and Practice
Kolmogorov Arnold Networks in Fraud Detection: Bridging the Gap Between Theory and Practice ( http://arxiv.org/abs/2408.10263v2 ) ライセンス: Link先を確認 | Yang Lu, Felix Zhan, | (参考訳) 本研究では,コルモゴロフ・アルノルドネットワーク(KAN)の不正検出への適用性を検討した。
そこで本研究では,PCA(Principal Component Analysis, 主成分分析)を用いて,データをスプラインを用いて2次元に分割する手法を提案する。
また、ハイパーパラメータチューニングに対するヒューリスティックなアプローチを導入し、計算コストを大幅に削減する。
これらの結果から,kanにはポテンシャルがあるものの,その使用法はデータ固有の評価によって導かれることが示唆された。
This study evaluates the applicability of Kolmogorov-Arnold Networks (KAN) in fraud detection, finding that their effectiveness is context-dependent. We propose a quick decision rule using Principal Component Analysis (PCA) to assess the suitability of KAN: if data can be effectively separated in two dimensions using splines, KAN may outperform traditional models; otherwise, other methods could be more appropriate. We also introduce a heuristic approach to hyperparameter tuning, significantly reducing computational costs. These findings suggest that while KAN has potential, its use should be guided by data-specific assessments. | 翻訳日:2024-09-06 19:18:56 公開日:2024-09-03 |
# Deep-MacroFin:連続時間経済モデルのためのインフォームド平衡ニューラルネットワーク
Deep-MacroFin: Informed Equilibrium Neural Network for Continuous Time Economic Models ( http://arxiv.org/abs/2408.10368v2 ) ライセンス: Link先を確認 | Yuntao Wu, Jiayuan Guo, Goutham Gopalakrishna, Zisis Poulos, | (参考訳) 本稿では、偏微分方程式を解くために設計された包括的フレームワークであるDeep-MacroFinについて述べる。
このフレームワークは、従来のマルチ層パーセプトロンや新しく開発されたコルモゴロフ・アルノルドネットワークなど、ディープラーニング手法を活用する。
ハミルトン・ヤコビ・ベルマン方程式と結合代数方程式でカプセル化された経済情報を用いて最適化される。
ニューラルネットワークの適用は、標準的な数値法と比較して計算要求や制限を少なくして、高次元の問題を正確に解決するという約束を果たす。
この汎用的枠組みは、解が不連続性を示す場合であっても、素微分方程式や微分方程式の系に容易に適用できる。
重要なのは、既存のライブラリよりも単純でユーザフレンドリーな実装を提供することです。
In this paper, we present Deep-MacroFin, a comprehensive framework designed to solve partial differential equations, with a particular focus on models in continuous time economics. This framework leverages deep learning methodologies, including conventional Multi-Layer Perceptrons and the newly developed Kolmogorov-Arnold Networks. It is optimized using economic information encapsulated by Hamilton-Jacobi-Bellman equations and coupled algebraic equations. The application of neural networks holds the promise of accurately resolving high-dimensional problems with fewer computational demands and limitations compared to standard numerical methods. This versatile framework can be readily adapted for elementary differential equations, and systems of differential equations, even in cases where the solutions may exhibit discontinuities. Importantly, it offers a more straightforward and user-friendly implementation than existing libraries. | 翻訳日:2024-09-06 19:09:05 公開日:2024-09-03 |
# 認知モデルを用いたレコメンデーションにおける個人エンゲージメントの予測の改善
Improving the Prediction of Individual Engagement in Recommendations Using Cognitive Models ( http://arxiv.org/abs/2408.16147v2 ) ライセンス: Link先を確認 | Roderick Seow, Yunfan Zhao, Duncan Wood, Milind Tambe, Cleotilde Gonzalez, | (参考訳) 限られた資源を持つ公衆衛生プログラムでは、いつ、いつ、どの介入を割り当てるかを決めるために、時間とともに、介入に反応して行動がどのように変化するかを予測する能力が不可欠である。
実世界の母体保健プログラムのデータを用いて、インスタンスベース学習(IBL)理論に基づく認知モデルが、既存の純粋計算アプローチをどのように拡張するかを実証する。
これらの結果から,人間の意思決定過程を反映した一般時系列予測モデル(LSTMなど)と比較して,個人の状態のダイナミクスをよりよく予測できることがわかった。
さらに、ILBは個人の状態のボラティリティと介入に対する感受性を推定し、他の時系列モデルのトレーニングの効率を向上させることができる。
For public health programs with limited resources, the ability to predict how behaviors change over time and in response to interventions is crucial for deciding when and to whom interventions should be allocated. Using data from a real-world maternal health program, we demonstrate how a cognitive model based on Instance-Based Learning (IBL) Theory can augment existing purely computational approaches. Our findings show that, compared to general time-series forecasters (e.g., LSTMs), IBL models, which reflect human decision-making processes, better predict the dynamics of individuals' states. Additionally, IBL provides estimates of the volatility in individuals' states and their sensitivity to interventions, which can improve the efficiency of training of other time series models. | 翻訳日:2024-09-06 17:07:21 公開日:2024-09-03 |
# ソフトウェア実践者のためのAI倫理クイズによるAI倫理の意識向上
Raising AI Ethics Awareness through an AI Ethics Quiz for Software Practitioners ( http://arxiv.org/abs/2408.16796v2 ) ライセンス: Link先を確認 | Aastha Pant, Rashina Hoda, Paul McIntosh, | (参考訳) コンテキスト:今日では、AIシステムを取り巻く倫理的問題がますます多くなり、社会的な害を防ぐためにAI倫理をシステムデザインに統合する必要性が強調されている。
ソフトウェア実践者の間でAI倫理に対する意識を高め、深い理解を促進することが、この目標を達成する上で不可欠である。
しかし、研究は実践者のAI倫理と倫理原則に対する認識と知識に大きなギャップがあることを示唆している。
公正性、透明性、説明責任、プライバシといったAI倫理原則の運用を支援するために多くの努力が払われているが、初期認識を高めることにはあまり注意が払われていない。
目的: このギャップに対処するため、ソフトウェア実践者間の認識を高め、AI倫理の知識を高めるために、ソフトウェアベースのツールであるAI Ethics Quizを開発しました。
我々の目的は、対話的なワークショップを組織し、AI倫理クイズを導入し、実践者間のAI倫理と倫理原則の意識と知識を高める効果を評価することである。
方法:29名のソフトウェア実践者を対象に,1時間のワークショップ(個人1名,オンライン1名)を2回実施した。
データは、プレクイズアンケート、AI倫理クイズ、ポストクイズアンケートを通じて収集された。
結果: 匿名回答から, クイズによって実践者のAI倫理に対する意識と理解が著しく改善したことが明らかとなった。
さらに、実践者はクイズが関与していることを発見し、AI倫理に関する有意義な学習体験を生み出したと報告した。
本稿では,これらの対話的なワークショップを実施し,実践者にAI倫理クイズを導入することで得られた知見を紹介する。
結論: ソフトウェア企業やリーダが同様のイニシアティブを採用することを推奨すると同時に、実践者のAI倫理に対する認識と理解を高める上でも役立ちます。
Context:Today, ethical issues surrounding AI systems are increasingly prevalent, highlighting the critical need to integrate AI ethics into system design to prevent societal harm. Raising awareness and fostering a deep understanding of AI ethics among software practitioners is essential for achieving this goal. However, research indicates a significant gap in practitioners' awareness and knowledge of AI ethics and ethical principles. While much effort has been directed toward helping practitioners operationalise AI ethical principles such as fairness, transparency, accountability, and privacy, less attention has been paid to raising initial awareness, which should be the foundational step. Objective: Addressing this gap, we developed a software-based tool, the AI Ethics Quiz, to raise awareness and enhance the knowledge of AI ethics among software practitioners. Our objective was to organise interactive workshops, introduce the AI Ethics Quiz, and evaluate its effectiveness in enhancing awareness and knowledge of AI ethics and ethical principles among practitioners. Method: We conducted two one-hour workshops (one in-person and one online) involving 29 software practitioners. Data was collected through pre-quiz questionnaire, the AI Ethics Quiz, and a post-quiz questionnaire. Results: The anonymous responses revealed that the quiz significantly improved practitioners' awareness and understanding of AI ethics. Additionally, practitioners found the quiz engaging and reported it created a meaningful learning experience regarding AI ethics. In this paper, we share insights gained from conducting these interactive workshops and introducing the AI Ethics Quiz to practitioners. Conclusion: We also provide recommendations for software companies and leaders to adopt similar initiatives, which may help them enhance practitioners' awareness and understanding of AI ethics. | 翻訳日:2024-09-06 17:07:21 公開日:2024-09-03 |
# 以下:手話翻訳の動画を小さな記号からまとめる
Less is more: concatenating videos for Sign Language Translation from a small set of signs ( http://arxiv.org/abs/2409.01506v1 ) ライセンス: Link先を確認 | David Vinicius da Silva, Valter Estevam, David Menotti, | (参考訳) ブラジル手話(リビア語)をポルトガル語翻訳モデルにトレーニングするためのラベル付きデータの制限は、ビデオ収集とアノテーションコストのために難しい問題である。
本稿では,手話翻訳モデルの訓練のために,孤立した信号を含む短いクリップを連結して手話内容を生成することを提案する。
V-LIBRASILデータセットは4,089個の手話ビデオからなり、少なくとも3人が解釈し、各Libras翻訳で数十万の文を作成し、そのモデルを供給している。
具体的には,語彙のサイズや文構造が変化し,約170K,300K,500Kビデオのデータセットを生成する実験をいくつか提案する。
BLEU-4 と METEOR はそれぞれ 9.2% と 26.2% の有意なスコアを得た。
我々の技術は、将来的な作業の明確な方向性を提供する何千もの文の収集やアノテーションよりもはるかに低コストで既存のデータセットの作成や拡張を可能にします。
The limited amount of labeled data for training the Brazilian Sign Language (Libras) to Portuguese Translation models is a challenging problem due to video collection and annotation costs. This paper proposes generating sign language content by concatenating short clips containing isolated signals for training Sign Language Translation models. We employ the V-LIBRASIL dataset, composed of 4,089 sign videos for 1,364 signs, interpreted by at least three persons, to create hundreds of thousands of sentences with their respective Libras translation, and then, to feed the model. More specifically, we propose several experiments varying the vocabulary size and sentence structure, generating datasets with approximately 170K, 300K, and 500K videos. Our results achieve meaningful scores of 9.2% and 26.2% for BLEU-4 and METEOR, respectively. Our technique enables the creation or extension of existing datasets at a much lower cost than the collection and annotation of thousands of sentences providing clear directions for future works. | 翻訳日:2024-09-06 03:35:27 公開日:2024-09-03 |
# データから洞察へ:高度と範囲における多モード生体認証アルゴリズムのためのIARPA BRIARデータセットの共変量解析
From Data to Insights: A Covariate Analysis of the IARPA BRIAR Dataset for Multimodal Biometric Recognition Algorithms at Altitude and Range ( http://arxiv.org/abs/2409.01514v1 ) ライセンス: Link先を確認 | David S. Bolme, Deniz Aykac, Ryan Shivers, Joel Brogan, Nell Barber, Bob Zhang, Laura Davies, David Cornett III, | (参考訳) 本稿では,IARPA BRIARデータセットにおける全身バイオメトリクスの融合性能に対する共変量の影響について検討し,特にUAVプラットフォーム,高度位置,距離1000mに着目した。
データセットには、屋内画像や制御された歩行記録と比較して、屋外ビデオが含まれている。
正規化生融合スコアは予測偽受け入れ率(FAR)に直接関連し、モデル結果の直感的な解釈手段を提供する。
線形モデルは生体計測アルゴリズムのスコアを予測するために開発され、その性能を分析し、高度と範囲の精度で最も影響力のある共変量を特定する。
この分析では, 気温, 風速, 太陽負荷, 乱流などの気象要因についても検討した。
この研究は、解像度とカメラ距離の予測精度と発見により、長距離/高高度/UAVバイオメトリックスにおける将来の研究と開発をガイドし、国家安全保障やその他の重要な領域のためのより信頼性が高く堅牢なシステムの構築を支援することが判明した。
This paper examines covariate effects on fused whole body biometrics performance in the IARPA BRIAR dataset, specifically focusing on UAV platforms, elevated positions, and distances up to 1000 meters. The dataset includes outdoor videos compared with indoor images and controlled gait recordings. Normalized raw fusion scores relate directly to predicted false accept rates (FAR), offering an intuitive means for interpreting model results. A linear model is developed to predict biometric algorithm scores, analyzing their performance to identify the most influential covariates on accuracy at altitude and range. Weather factors like temperature, wind speed, solar loading, and turbulence are also investigated in this analysis. The study found that resolution and camera distance best predicted accuracy and findings can guide future research and development efforts in long-range/elevated/UAV biometrics and support the creation of more reliable and robust systems for national security and other critical domains. | 翻訳日:2024-09-06 03:35:27 公開日:2024-09-03 |
# METcross:都市横断流の短期予測のためのフレームワーク
METcross: A framework for short-term forecasting of cross-city metro passenger flow ( http://arxiv.org/abs/2409.01515v1 ) ライセンス: Link先を確認 | Wenbo Lu, Jinhua Xu, Peikun Li, Ting Wang, Yong Zhang, | (参考訳) 地下鉄の運行管理は、将来的には乗客の流れの正確な予測に依存する。
本研究は,首都圏における都市間知識の統合と,首都圏における短期旅客フロー予測フレームワーク(METcross)の開発から始まった。
まず,データ融合と移動学習の観点から都市間交通流予測をモデル化するための基礎的枠組みを提案する。
第二に、METcrossフレームワークは、静的および動的共変体の両方を、駅の乗客フローの特徴を特徴づける経済や天候などの入力として使用するように設計されている。
このフレームワークは、ソースシティでの事前トレーニングと、ターゲット都市での微調整の2つのステップで構成されている。
プレトレーニング中、ソースシティからのデータは特徴抽出と乗客フロー予測モデルを訓練する。
対象都市の微調整には、ソースシティのトレーニングされたモデルを初期パラメータとして使用し、両方の都市の特徴埋め込みを融合させることで、乗客のフロー予測結果を得る。
最後に、WuxiとCongqingのメトロネットワーク上で、基本的な予測フレームワークとMETcrossフレームワークを試験し、その効果を実験的に分析した。
その結果、METcrossフレームワークは基本的なフレームワークよりも優れており、単都市予測モデルと比較して平均絶対誤差とルート平均正方誤差を22.35%、26.18%削減できることがわかった。
Metro operation management relies on accurate predictions of passenger flow in the future. This study begins by integrating cross-city (including source and target city) knowledge and developing a short-term passenger flow prediction framework (METcross) for the metro. Firstly, we propose a basic framework for modeling cross-city metro passenger flow prediction from the perspectives of data fusion and transfer learning. Secondly, METcross framework is designed to use both static and dynamic covariates as inputs, including economy and weather, that help characterize station passenger flow features. This framework consists of two steps: pre-training on the source city and fine-tuning on the target city. During pre-training, data from the source city trains the feature extraction and passenger flow prediction models. Fine-tuning on the target city involves using the source city's trained model as the initial parameter and fusing the feature embeddings of both cities to obtain the passenger flow prediction results. Finally, we tested the basic prediction framework and METcross framework on the metro networks of Wuxi and Chongqing to experimentally analyze their efficacy. Results indicate that the METcross framework performs better than the basic framework and can reduce the Mean Absolute Error and Root Mean Squared Error by 22.35% and 26.18%, respectively, compared to single-city prediction models. | 翻訳日:2024-09-06 03:35:27 公開日:2024-09-03 |
# 時系列予測のためのニューラルネットワークによる永続ホモロジーのハイブリッド化:波高のケーススタディ
Hybridization of Persistent Homology with Neural Networks for Time-Series Prediction: A Case Study in Wave Height ( http://arxiv.org/abs/2409.01519v1 ) ライセンス: Link先を確認 | Zixin Lin, Nur Fariha Syaqina Zulkepli, Mohd Shareduwan Mohd Kasihmuddin, R. U. Gobithaasan, | (参考訳) 時系列予測は様々な分野の研究の活発な領域であり、短期的・長期的要因の変動の影響にしばしば挑戦される。
本研究では,ニューラルネットワークモデルの予測性能を向上させる機能工学手法を提案する。
具体的には、計算トポロジ手法を利用して、入力データから貴重なトポロジ的特徴を導出し、モデルの予測精度を高める。
我々の焦点は、フィードフォワードニューラルネットワーク(FNN)、リカレントニューラルネットワーク(RNN)、長期記憶ネットワーク(LSTM)、ゲートリカレントユニット(GRU)のトポロジ的特徴に基づくモデルを活用することにある。
時間先予測では、FNN、RNN、LSTM、GRUモデルにおいて、R^2$スコアの強化が重要であった。
さらに、これらのモデルでは最大誤差と平均二乗誤差が大幅に削減された。
Time-series prediction is an active area of research across various fields, often challenged by the fluctuating influence of short-term and long-term factors. In this study, we introduce a feature engineering method that enhances the predictive performance of neural network models. Specifically, we leverage computational topology techniques to derive valuable topological features from input data, boosting the predictive accuracy of our models. Our focus is on predicting wave heights, utilizing models based on topological features within feedforward neural networks (FNNs), recurrent neural networks (RNNs), long short-term memory networks (LSTM), and RNNs with gated recurrent units (GRU). For time-ahead predictions, the enhancements in $R^2$ score were significant for FNNs, RNNs, LSTM, and GRU models. Additionally, these models also showed significant reductions in maximum errors and mean squared errors. | 翻訳日:2024-09-06 03:35:27 公開日:2024-09-03 |
# 長期運動生成のためのラグランジアン運動場
Lagrangian Motion Fields for Long-term Motion Generation ( http://arxiv.org/abs/2409.01522v1 ) ライセンス: Link先を確認 | Yifei Yang, Zikai Huang, Chenshu Xu, Shengfeng He, | (参考訳) 長期動作生成は、長期にわたって一貫性のある現実的なシーケンスを生成することを必要とする困難なタスクである。
現在の手法は主にフレームワイズ・モーション・表現に依存しており、静的な空間的詳細のみを捉え、時間的ダイナミクスを見落としている。
このアプローチは時間次元にわたって大きな冗長性をもたらし、効果的な長期運動の発生を複雑にする。
これらの制約を克服するため,ラグランジアン運動場(Lagrangian Motion Fields)の概念を導入する。
各関節を短い間隔で均一な速度でラグランジアン粒子として扱うことにより、我々のアプローチは運動表現を一連の「スーパーモーション」(スーパーピクセルに類似)に凝縮する。
本手法は,静的空間情報を解釈可能な時間的ダイナミクスとシームレスに統合し,既存のネットワークアーキテクチャや動作シーケンスの内容の制限を超越する。
私たちのソリューションは万能で軽量で、ニューラルネットワークの前処理の必要性を排除しています。
提案手法は, 長期音楽生成やテキスト・トゥ・モーション生成といったタスクに優れ, 効率の向上, 生成品質の向上, 既存手法に比べて多様性の向上を実現している。
さらに、ラグランジアン運動場の適用性は、無限運動ループやきめ細かい制御された運動生成などの応用にまで拡張され、その幅広い実用性を強調している。
ビデオデモは \url{https://plyfager.github.io/LaMoG} で公開されている。
Long-term motion generation is a challenging task that requires producing coherent and realistic sequences over extended durations. Current methods primarily rely on framewise motion representations, which capture only static spatial details and overlook temporal dynamics. This approach leads to significant redundancy across the temporal dimension, complicating the generation of effective long-term motion. To overcome these limitations, we introduce the novel concept of Lagrangian Motion Fields, specifically designed for long-term motion generation. By treating each joint as a Lagrangian particle with uniform velocity over short intervals, our approach condenses motion representations into a series of "supermotions" (analogous to superpixels). This method seamlessly integrates static spatial information with interpretable temporal dynamics, transcending the limitations of existing network architectures and motion sequence content types. Our solution is versatile and lightweight, eliminating the need for neural network preprocessing. Our approach excels in tasks such as long-term music-to-dance generation and text-to-motion generation, offering enhanced efficiency, superior generation quality, and greater diversity compared to existing methods. Additionally, the adaptability of Lagrangian Motion Fields extends to applications like infinite motion looping and fine-grained controlled motion generation, highlighting its broad utility. Video demonstrations are available at \url{https://plyfager.github.io/LaMoG}. | 翻訳日:2024-09-06 03:21:06 公開日:2024-09-03 |
# 振動再正規化電子バンド構造に対する機械学習アプローチ
Machine learning approach for vibronically renormalized electronic band structures ( http://arxiv.org/abs/2409.01523v1 ) ライセンス: Link先を確認 | Niraj Aryal, Sheng Zhang, Weiguo Yin, Gia-Wei Chern, | (参考訳) 物理特性の振動熱期待値の計算を第一原理から効率的に行う機械学習(ML)法を提案する。
本手法は, 第一原理フォノンモデルに基づいて, 超セル内の原子核配置を有限温度でサンプリングするために, 確率モンテカルロアルゴリズムを用いた非摂動凍結フォノン定式化に基づく。
深層学習ニューラルネットワークは、サンプリングされたフォノン構成に関連する物理的特性を正確に予測するために訓練され、時間を要する計算をバイパスする。
電子系の点群対称性をMLモデルに組み込むため、超セル内のフォノン構成のための対称性不変記述子を開発するためにグループ理論法が用いられる。
我々は,密度汎関数理論(DFT)に基づくシリコンの温度依存性電子エネルギーギャップの計算にML手法を適用した。
ニューラルネットワークモデルをトレーニングするためのDFT計算が100未満の場合, 振動熱予測値の計算には, はるかに多くのサンプリングが可能であることを示す。
本研究は,有限温度第一原理電子構造法におけるML技術の有望な可能性を強調した。
We present a machine learning (ML) method for efficient computation of vibrational thermal expectation values of physical properties from first principles. Our approach is based on the non-perturbative frozen phonon formulation in which stochastic Monte Carlo algorithm is employed to sample configurations of nuclei in a supercell at finite temperatures based on a first-principles phonon model. A deep-learning neural network is trained to accurately predict physical properties associated with sampled phonon configurations, thus bypassing the time-consuming {\em ab initio} calculations. To incorporate the point-group symmetry of the electronic system into the ML model, group-theoretical methods are used to develop a symmetry-invariant descriptor for phonon configurations in the supercell. We apply our ML approach to compute the temperature dependent electronic energy gap of silicon based on density functional theory (DFT). We show that, with less than a hundred DFT calculations for training the neural network model, an order of magnitude larger number of sampling can be achieved for the computation of the vibrational thermal expectation values. Our work highlights the promising potential of ML techniques for finite temperature first-principles electronic structure methods. | 翻訳日:2024-09-06 03:21:06 公開日:2024-09-03 |
# S$3$c-Math: 自発的なステップレベルの自己補正は、大きな言語モデルで数学的推論をより良くする
S$^3$c-Math: Spontaneous Step-level Self-correction Makes Large Language Models Better Mathematical Reasoners ( http://arxiv.org/abs/2409.01524v1 ) ライセンス: Link先を確認 | Yuchen Yan, Jin Jiang, Yang Liu, Yixin Cao, Xin Xu, Mengdi zhang, Xunliang Cai, Jian Shao, | (参考訳) 自己補正(Self-correction)は、大規模言語モデル(LLM)の潜在的な推論能力を刺激する新しい手法である。
LLMが推論問題を解くとき、推論プロセス中にエラーを検出し修正する。
しかし、近年の研究は自己補正をLPMの自然的・本質的な能力とはみなしていない。
代わりに、そのような修正は、ポストホック生成、外部知識の導入、マルチモデルコラボレーションなどを通じて達成される。
本稿では,S$^3$c-Math と呼ばれる数式 LLM を提案する。
この機能は、LLMが進行中の推論がエラーを含む傾向があるかどうかを認識し、これらのエラーを同時に修正し、より信頼性の高い応答を生成するのに役立つ。
そこで我々は,段階的なサンプリング手法を用いて,段階的な自己補正データを構築し,その能力を実現する手法を提案する。
さらに, 上記構築データを用いて, 自発的ステップレベルの自己補正能力を有するLCMを装備する訓練戦略を実装した。
GSM8K, MATH, その他の数式ベンチマークにおける評価は, 様々な基礎 LLM において有効であることが実証されている。
我々の知る限り、数学的推論において LLM の自然段階的自己補正能力を導入するのは初めてである。
Self-correction is a novel method that can stimulate the potential reasoning abilities of large language models (LLMs). It involves detecting and correcting errors during the inference process when LLMs solve reasoning problems. However, recent works do not regard self-correction as a spontaneous and intrinsic capability of LLMs. Instead, such correction is achieved through post-hoc generation, external knowledge introduction, multi-model collaboration, and similar techniques. In this paper, we propose a series of mathematical LLMs called S$^3$c-Math, which are able to perform Spontaneous Step-level Self-correction for Mathematical reasoning. This capability helps LLMs to recognize whether their ongoing inference tends to contain errors and simultaneously correct these errors to produce a more reliable response. We proposed a method, which employs a step-level sampling approach to construct step-wise self-correction data for achieving such ability. Additionally, we implement a training strategy that uses above constructed data to equip LLMs with spontaneous step-level self-correction capacities. Our data and methods have been demonstrated to be effective across various foundation LLMs, consistently showing significant progress in evaluations on GSM8K, MATH, and other mathematical benchmarks. To the best of our knowledge, we are the first to introduce the spontaneous step-level self-correction ability of LLMs in mathematical reasoning. | 翻訳日:2024-09-06 03:21:06 公開日:2024-09-03 |
# 変圧器と再帰型ニューラルネットの設計空間について
On the Design Space Between Transformers and Recursive Neural Nets ( http://arxiv.org/abs/2409.01531v1 ) ライセンス: Link先を確認 | Jishnu Ray Chowdhury, Cornelia Caragea, | (参考訳) 本稿では,Recursive Neural Networks (RvNN) とTransformers (Transformers) の2種類のモデルについて検討し,最近の2つのモデル - Continuous Recursive Neural Networks (CRvNN) とNeural Data Routers (NDR) から,それらの間の密接な関係が現れることを示す。
一方、CRvNNは従来のRvNNの境界を押して、その離散的な構造的な構成を緩和し、最終的にTransformerのような構造になる。
一方、NDRはオリジナルのTransformerを制約し、より優れた構造的帰納バイアスを誘発し、CRvNNに近いモデルに終止符を打つ。
CRvNNとNDRはどちらも、より単純なRvNNとトランスフォーマーの形式が失敗するアルゴリズムタスクや一般化において強力な性能を示す。
我々は、RvNNとTransformersの設計空間におけるこれらの"ブリッジ"モデルを探求し、密接な関係を定式化し、それらの制限について議論し、将来の研究のためのアイデアを提案する。
In this paper, we study two classes of models, Recursive Neural Networks (RvNNs) and Transformers, and show that a tight connection between them emerges from the recent development of two recent models - Continuous Recursive Neural Networks (CRvNN) and Neural Data Routers (NDR). On one hand, CRvNN pushes the boundaries of traditional RvNN, relaxing its discrete structure-wise composition and ends up with a Transformer-like structure. On the other hand, NDR constrains the original Transformer to induce better structural inductive bias, ending up with a model that is close to CRvNN. Both models, CRvNN and NDR, show strong performance in algorithmic tasks and generalization in which simpler forms of RvNNs and Transformers fail. We explore these "bridge" models in the design space between RvNNs and Transformers, formalize their tight connections, discuss their limitations, and propose ideas for future research. | 翻訳日:2024-09-06 03:21:06 公開日:2024-09-03 |
# ニューラル確率微分方程式を用いた分光器のロバスト性の向上
Improving Robustness of Spectrogram Classifiers with Neural Stochastic Differential Equations ( http://arxiv.org/abs/2409.01532v1 ) ライセンス: Link先を確認 | Joel Brogan, Olivera Kotevska, Anibely Torres, Sumit Jha, Mark Adams, | (参考訳) 信号解析と分類は、高いレベルのノイズと摂動で区切られている。
コンピュータビジョンに基づくディープラーニングモデルは信号分類と検出の分野で有用であることが証明されているが、これらの手法は非ビジョン信号処理タスクに固有の低信号-雑音比を扱うように設計されていない。
それらは強力だが、現時点では、スマートグリッドセンシング、異常検出、非侵襲的な負荷監視など、本質的にノイズの多いダイナミックなインフラストラクチャドメインの選択方法ではない。
Signal analysis and classification is fraught with high levels of noise and perturbation. Computer-vision-based deep learning models applied to spectrograms have proven useful in the field of signal classification and detection; however, these methods aren't designed to handle the low signal-to-noise ratios inherent within non-vision signal processing tasks. While they are powerful, they are currently not the method of choice in the inherently noisy and dynamic critical infrastructure domain, such as smart-grid sensing, anomaly detection, and non-intrusive load monitoring. | 翻訳日:2024-09-06 03:21:06 公開日:2024-09-03 |
# 認識する前に考える: 交通信号認識のための大規模マルチモーダルモデル
Think Twice Before Recognizing: Large Multimodal Models for General Fine-grained Traffic Sign Recognition ( http://arxiv.org/abs/2409.01534v1 ) ライセンス: Link先を確認 | Yaozong Gan, Guang Li, Ren Togo, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama, | (参考訳) 本稿では,微粒な交通標識認識(TSR)を改善するために認識する前に,思考と呼ばれる新たな戦略を提案する。
複雑な道路条件のため、野生の微粒なTSRは困難であり、既存のアプローチではデータが不足している場合、特にクロスカントリーなTSRに苦しむ。
我々の戦略は、大規模マルチモーダルモデル(LMM)の多重思考能力を刺激することにより、有効な微粒化TSRを実現する。
LMMのための複数の思考プロセスを設計するために、文脈、特徴、微分記述を導入する。
中心座標のプロンプト最適化によるコンテキスト記述は、LMMが複数の交通標識を含む元の道路画像中の目標交通標識を見つけ出し、提案した先行交通標識仮説を通じて無関係な回答をフィルタリングするのに役立つ。
特徴的記述はテンプレートトラヒックのテキスト内学習に基づいており、これによりドメイン間の差が小さくなり、LMMの微粒化認識能力が向上する。
類似の交通標識の差分記述は、LMMのマルチモーダル思考能力を最適化する。
提案手法はトレーニングデータとは独立であり,単純かつ均一な命令のみを必要とする。
各国の3つのベンチマークデータセットと2つの実世界のデータセットについて広範な実験を行い、提案手法は5つのデータセットすべてに対して最先端のTSR結果を得る。
We propose a new strategy called think twice before recognizing to improve fine-grained traffic sign recognition (TSR). Fine-grained TSR in the wild is difficult due to the complex road conditions, and existing approaches particularly struggle with cross-country TSR when data is lacking. Our strategy achieves effective fine-grained TSR by stimulating the multiple-thinking capability of large multimodal models (LMM). We introduce context, characteristic, and differential descriptions to design multiple thinking processes for the LMM. The context descriptions with center coordinate prompt optimization help the LMM to locate the target traffic sign in the original road images containing multiple traffic signs and filter irrelevant answers through the proposed prior traffic sign hypothesis. The characteristic description is based on few-shot in-context learning of template traffic signs, which decreases the cross-domain difference and enhances the fine-grained recognition capability of the LMM. The differential descriptions of similar traffic signs optimize the multimodal thinking capability of the LMM. The proposed method is independent of training data and requires only simple and uniform instructions. We conducted extensive experiments on three benchmark datasets and two real-world datasets from different countries, and the proposed method achieves state-of-the-art TSR results on all five datasets. | 翻訳日:2024-09-06 03:21:06 公開日:2024-09-03 |
# 価値認識型チャットボットを促進する監査フレームワークの開発
It is Time to Develop an Auditing Framework to Promote Value Aware Chatbots ( http://arxiv.org/abs/2409.01539v1 ) ライセンス: Link先を確認 | Yanchen Wang, Lisa Singh, | (参考訳) 2022年11月のChatGPTのローンチは、AIの新しい時代の始まりであり、誰でも使える生成AIツールが利用可能になった。
ChatGPTや他の類似のチャットボットは、学生の宿題の質問に答えるから、音楽やアートを作るまで、幅広い能力を誇っている。
大量の人間のデータチャットボットが構築されていることを考えると、人間のエラーやバイアスを継承することは避けられない。
これらのバイアスは、異なるサブポピュレーションに重大な損害を与えたり、不平等を増大させる可能性がある。
チャットボットは社会的価値を本質的に理解していないため、確立された規範に反する新しいコンテンツを作成することができる。
生成されたコンテンツの例としては、児童ポルノ、不正確な事実、差別的投稿などがある。
本稿では,コンピュータやデータ科学者として,様々なチャットボットやLDMの健康状態を監視するための,コミュニティが確立した標準測定セットを含む価値に基づく監査フレームワークの動員と開発が必要であることを論じる。
議論を支援するために、簡単な監査テンプレートを使用して、検索エンジンスタイルのタスク、コード生成、ストーリー生成の潜在的なバイアスを測定することに焦点を当てた、実施する基本的な監査結果を共有する。
GPT 3.5 と GPT 4 からの応答は,既存の法則から導出される値と一致せず,一致しない。
調査結果は驚きではないが、オープンに共有するための堅牢な監査フレームワークを開発するという緊急性を強調しており、私たちの価値観が守られていない場合、学術コミュニティや政府機関、企業によって緩和戦略を開発できるようにしています。
この論文は、技術改善のための価値ベースの戦略を推奨して締めくくります。
The launch of ChatGPT in November 2022 marked the beginning of a new era in AI, the availability of generative AI tools for everyone to use. ChatGPT and other similar chatbots boast a wide range of capabilities from answering student homework questions to creating music and art. Given the large amounts of human data chatbots are built on, it is inevitable that they will inherit human errors and biases. These biases have the potential to inflict significant harm or increase inequity on different subpopulations. Because chatbots do not have an inherent understanding of societal values, they may create new content that is contrary to established norms. Examples of concerning generated content includes child pornography, inaccurate facts, and discriminatory posts. In this position paper, we argue that the speed of advancement of this technology requires us, as computer and data scientists, to mobilize and develop a values-based auditing framework containing a community established standard set of measurements to monitor the health of different chatbots and LLMs. To support our argument, we use a simple audit template to share the results of basic audits we conduct that are focused on measuring potential bias in search engine style tasks, code generation, and story generation. We identify responses from GPT 3.5 and GPT 4 that are both consistent and not consistent with values derived from existing law. While the findings come as no surprise, they do underscore the urgency of developing a robust auditing framework for openly sharing results in a consistent way so that mitigation strategies can be developed by the academic community, government agencies, and companies when our values are not being adhered to. We conclude this paper with recommendations for value-based strategies for improving the technologies. | 翻訳日:2024-09-06 03:21:06 公開日:2024-09-03 |
# 実世界シナリオにおける長距離生体認証:ミッションに基づく総合的評価フレームワーク
Long-Range Biometric Identification in Real World Scenarios: A Comprehensive Evaluation Framework Based on Missions ( http://arxiv.org/abs/2409.01540v1 ) ライセンス: Link先を確認 | Deniz Aykac, Joel Brogan, Nell Barber, Ryan Shivers, Bob Zhang, Dallas Sacca, Ryan Tipton, Gavin Jager, Austin Garret, Matthew Love, Jim Goddard, David Cornett III, David S. Bolme, | (参考訳) 研究開発(R\&D)環境における生体認証システムの評価に利用できる膨大な量のデータは、目標性能ミスマッチの一般的な問題に寄与している。
バイオメトリックアルゴリズムは、ターゲットとする現実世界のアプリケーションを反映しないデータに対して頻繁にテストされる。
テスト・アンド・アセスメント(T\&E)の観点からすると、このドメインミスマッチは、ステート・オブ・ザ・アーツ(SOTA)研究の改善が実際に適用結果に変換される場合、評価が難しい。
この問題は、特定のユースケースやシナリオを反映するデータと実験的な方法の思慮深い準備によって解決できる。
そこで本研究では,テロ対策,重要インフラ施設の保護,軍事力の保護,国境警備など,様々な応用分野を支援できる範囲と高度の個人を特定するための研究ソリューションの評価を行った。
画像の品質問題や顔認識への依存といった課題を,バイオメトリックな唯一のモダリティとして解決する。
顔と体の特徴を融合させることにより,地面と急ピッチの両角度から有効な長距離識別のための頑健な生体計測システムを提案する。
予備結果は全身認識の進歩が有望であることを示している。
本稿では,これらの早期発見を概説し,ミッション駆動計測に基づく長距離生体認証システムの実現に向けた今後の方向性について考察する。
The considerable body of data available for evaluating biometric recognition systems in Research and Development (R\&D) environments has contributed to the increasingly common problem of target performance mismatch. Biometric algorithms are frequently tested against data that may not reflect the real world applications they target. From a Testing and Evaluation (T\&E) standpoint, this domain mismatch causes difficulty assessing when improvements in State-of-the-Art (SOTA) research actually translate to improved applied outcomes. This problem can be addressed with thoughtful preparation of data and experimental methods to reflect specific use-cases and scenarios. To that end, this paper evaluates research solutions for identifying individuals at ranges and altitudes, which could support various application areas such as counterterrorism, protection of critical infrastructure facilities, military force protection, and border security. We address challenges including image quality issues and reliance on face recognition as the sole biometric modality. By fusing face and body features, we propose developing robust biometric systems for effective long-range identification from both the ground and steep pitch angles. Preliminary results show promising progress in whole-body recognition. This paper presents these early findings and discusses potential future directions for advancing long-range biometric identification systems based on mission-driven metrics. | 翻訳日:2024-09-06 03:21:06 公開日:2024-09-03 |
# 敵対的証拠偽造に対するエージェント著作権透かしのための浄化非依存的プロキシ学習
Purification-Agnostic Proxy Learning for Agentic Copyright Watermarking against Adversarial Evidence Forgery ( http://arxiv.org/abs/2409.01541v1 ) ライセンス: Link先を確認 | Erjin Bao, Ching-Chun Chang, Hanrui Wang, Isao Echizen, | (参考訳) さまざまなドメインにおけるAIエージェントの急増に伴い、AIモデルの所有を保護することが重要になっている。
これらのモデルの不正使用と違法な配布は、知的財産に深刻な脅威をもたらし、効果的な著作権保護措置を必要とする。
モデル透かしはこの問題に対処するための重要なテクニックとして現れており、所有権情報をモデルに埋め込んで著作権紛争の間、正当な所有権を主張している。
本稿では,ハッシュ技術を用いた自己認証型ブラックボックス透かしプロトコル,対向的摂動を用いたエビデンス偽造攻撃,対向的攻撃に対する浄化ステップを含む防御策,透かし信頼性とモデル性能を高めるための浄化非依存のプロキシ学習法を提案する。
実験により, 透かしモデルの安全性, 信頼性, 性能向上にこれらの手法の有効性が示された。
With the proliferation of AI agents in various domains, protecting the ownership of AI models has become crucial due to the significant investment in their development. Unauthorized use and illegal distribution of these models pose serious threats to intellectual property, necessitating effective copyright protection measures. Model watermarking has emerged as a key technique to address this issue, embedding ownership information within models to assert rightful ownership during copyright disputes. This paper presents several contributions to model watermarking: a self-authenticating black-box watermarking protocol using hash techniques, a study on evidence forgery attacks using adversarial perturbations, a proposed defense involving a purification step to counter adversarial attacks, and a purification-agnostic proxy learning method to enhance watermark reliability and model performance. Experimental results demonstrate the effectiveness of these approaches in improving the security, reliability, and performance of watermarked models. | 翻訳日:2024-09-06 03:21:06 公開日:2024-09-03 |
# Sparse-View CT再構成のためのタスク特異サンプリング戦略の学習
Learning Task-Specific Sampling Strategy for Sparse-View CT Reconstruction ( http://arxiv.org/abs/2409.01544v1 ) ライセンス: Link先を確認 | Liutao Yang, Jiahao Huang, Yingying Fang, Angelica I Aviles-Rivero, Carola-Bibiane Schonlieb, Daoqiang Zhang, Guang Yang, | (参考訳) Sparse-View Computed Tomography (SVCT) は低線量で高速な画像撮影を提供するが、深刻なアーティファクトに悩まされている。
SVCTの撮像品質を向上させるためには,サンプリング戦略の最適化が不可欠である。
しかし、現在の方法では、特定のスキャンタスク(例えば、胸部CTスキャン)や下流臨床応用(例えば、疾患診断)にかかわる、最適な方法が特定のスキャンタスクによって異なるという事実を見越して、あらゆる種類のスキャンに対して普遍的なサンプリング戦略を最適化するのが一般的である。
1つのスキャニングタスクに対して最適な戦略は、他のタスクに適用してもうまく機能しないかもしれない。
この問題に対処するために,各タスクに対して最適なサンプリング戦略を調整しつつ,統合された再構築ネットワークをトレーニングするためのマルチタスクアプローチを用いて,タスク固有のサンプリング戦略を学習するディープラーニングフレームワークを提案する。
これにより,各種類のスキャンに対してタスク特異的サンプリング戦略を適用し,SVCT画像の画質を向上させるとともに,下流での臨床利用の促進を図ることができる。
様々な走査型にわたる広範囲な実験により、画像品質を向上させるためのタスク固有のサンプリング戦略の有効性が検証された。
下流タスクを含む実験は、下流タスク性能の顕著な改善によって証明されたように、学習されたサンプリング戦略の臨床的価値を検証する。
さらに,共有再構成ネットワークを用いたマルチタスクフレームワークの利用により,タスク固有のモジュールを切り替え可能な現在のイメージングデバイスへの展開が容易になり,モデル全体を再トレーニングすることなく,新たなタスクを容易に統合できるようになった。
Sparse-View Computed Tomography (SVCT) offers low-dose and fast imaging but suffers from severe artifacts. Optimizing the sampling strategy is an essential approach to improving the imaging quality of SVCT. However, current methods typically optimize a universal sampling strategy for all types of scans, overlooking the fact that the optimal strategy may vary depending on the specific scanning task, whether it involves particular body scans (e.g., chest CT scans) or downstream clinical applications (e.g., disease diagnosis). The optimal strategy for one scanning task may not perform as well when applied to other tasks. To address this problem, we propose a deep learning framework that learns task-specific sampling strategies with a multi-task approach to train a unified reconstruction network while tailoring optimal sampling strategies for each individual task. Thus, a task-specific sampling strategy can be applied for each type of scans to improve the quality of SVCT imaging and further assist in performance of downstream clinical usage. Extensive experiments across different scanning types provide validation for the effectiveness of task-specific sampling strategies in enhancing imaging quality. Experiments involving downstream tasks verify the clinical value of learned sampling strategies, as evidenced by notable improvements in downstream task performance. Furthermore, the utilization of a multi-task framework with a shared reconstruction network facilitates deployment on current imaging devices with switchable task-specific modules, and allows for easily integrate new tasks without retraining the entire model. | 翻訳日:2024-09-06 03:21:06 公開日:2024-09-03 |
# 動的確率摂動を利用したドメイン適応音声強調のための効果的な雑音認識データシミュレーション
Effective Noise-aware Data Simulation for Domain-adaptive Speech Enhancement Leveraging Dynamic Stochastic Perturbation ( http://arxiv.org/abs/2409.01545v1 ) ライセンス: Link先を確認 | Chien-Chun Wang, Li-Wei Chen, Hung-Shin Lee, Berlin Chen, Hsin-Min Wang, | (参考訳) クロスドメイン音声強調(SE)は、目に見えない対象領域におけるノイズや背景情報の不足により深刻な課題に直面し、トレーニングとテスト条件のミスマッチを引き起こす。
本研究は、雑音抽出技術とGAN(Generative Adversarial Network)を利用して、限られた雑音音声データのみを用いて、この問題に対処する新しいデータシミュレーション手法を提案する。
特に,本手法ではノイズエンコーダを用いて,対象領域データからノイズ埋め込みを抽出する。
これらの埋め込みは、入力されたクリーン音声の音声内容を保持しつつ、生成元を適宜誘導し、ターゲット領域に音響的に適合した発話を合成する。
さらに, 動的確率摂動の概念を導入し, 予測中の雑音埋め込みに制御された摂動を注入することにより, 未知の雑音条件に対してモデルがうまく一般化できるようにする。
VoiceBank-DEMANDベンチマークデータセットの実験により、我々のドメイン適応型SEメソッドは、データシミュレーションに基づいて、既存の強力なベースラインを上回ります。
Cross-domain speech enhancement (SE) is often faced with severe challenges due to the scarcity of noise and background information in an unseen target domain, leading to a mismatch between training and test conditions. This study puts forward a novel data simulation method to address this issue, leveraging noise-extractive techniques and generative adversarial networks (GANs) with only limited target noisy speech data. Notably, our method employs a noise encoder to extract noise embeddings from target-domain data. These embeddings aptly guide the generator to synthesize utterances acoustically fitted to the target domain while authentically preserving the phonetic content of the input clean speech. Furthermore, we introduce the notion of dynamic stochastic perturbation, which can inject controlled perturbations into the noise embeddings during inference, thereby enabling the model to generalize well to unseen noise conditions. Experiments on the VoiceBank-DEMAND benchmark dataset demonstrate that our domain-adaptive SE method outperforms an existing strong baseline based on data simulation. | 翻訳日:2024-09-06 03:21:06 公開日:2024-09-03 |
# RパッケージpsvmSDR:主機による十分次元削減のための統一アルゴリズム
The R package psvmSDR: A Unified Algorithm for Sufficient Dimension Reduction via Principal Machines ( http://arxiv.org/abs/2409.01547v1 ) ライセンス: Link先を確認 | Jungmin Shin, Seung Jun Shin, Andrea Artemiou, | (参考訳) 回帰情報や分類情報を含む予測器の低次元部分空間を求めるSDR(Sufficient dimension reduction)は、機械学習コミュニティで人気がある。
本稿では,主サポートベクトルマシン(PSVM)から一般化された主マシン(PM)と呼ぶ新しいSDR推定器のクラスを実装した新しいRソフトウェアパッケージpsvmSDRを提案する。
このパッケージは線形SDRと非線形SDRの両方をカバーし、リアルタイム更新シナリオに適用可能な機能を提供する。
パッケージは、PMが様々な状況でSDR推定器を効率的に計算するための降下アルゴリズムを実装している。
この使い勝手の良いパッケージは、古典的なSDRメソッドを実装したDr Rパッケージの魅力的な代替となるだろう。
Sufficient dimension reduction (SDR), which seeks a lower-dimensional subspace of the predictors containing regression or classification information has been popular in a machine learning community. In this work, we present a new R software package psvmSDR that implements a new class of SDR estimators, which we call the principal machine (PM) generalized from the principal support vector machine (PSVM). The package covers both linear and nonlinear SDR and provides a function applicable to realtime update scenarios. The package implements the descent algorithm for the PMs to efficiently compute the SDR estimators in various situations. This easy-to-use package will be an attractive alternative to the dr R package that implements classical SDR methods. | 翻訳日:2024-09-06 03:21:06 公開日:2024-09-03 |
# VoxHakka:台湾・ハッカのための対話型多話者テキスト音声合成システム
VoxHakka: A Dialectally Diverse Multi-speaker Text-to-Speech System for Taiwanese Hakka ( http://arxiv.org/abs/2409.01548v1 ) ライセンス: Link先を確認 | Li-Wei Chen, Hung-Shin Lee, Chen-Chi Chang, | (参考訳) 本稿では,台湾語話者を対象とした音声合成システムであるVoxHakkaを紹介する。
YourTTSフレームワークを活用することで、VoxHakkaは6つの異なるHakka方言をサポートしながら、音声合成において高い自然性、精度、低リアルタイム化を実現している。
これは、方言固有のデータを用いてモデルを訓練し、話者対応のハッカ音声を生成することによって達成される。
公開されているハッカ音声コーパスの不足に対処するために,Webスクレイピングパイプラインと自動音声認識(ASR)に基づくデータクリーニング技術を組み合わせた費用対効果のアプローチを採用した。
このプロセスにより、TTSトレーニングに適した高品質でマルチスピーカー、マルチダイアレクトデータセットの取得が保証された。
比較平均世論スコア(CMOS)を用いて行った主観的聴力テストでは、VoxHakkaは、発音精度、トーンの正確性、全体的な自然性において、既存の公開されているHakka TTSシステムよりも著しく優れていた。
この研究は、ハッカ語技術の大幅な進歩を示し、言語保存と再生のための貴重な資源を提供する。
This paper introduces VoxHakka, a text-to-speech (TTS) system designed for Taiwanese Hakka, a critically under-resourced language spoken in Taiwan. Leveraging the YourTTS framework, VoxHakka achieves high naturalness and accuracy and low real-time factor in speech synthesis while supporting six distinct Hakka dialects. This is achieved by training the model with dialect-specific data, allowing for the generation of speaker-aware Hakka speech. To address the scarcity of publicly available Hakka speech corpora, we employed a cost-effective approach utilizing a web scraping pipeline coupled with automatic speech recognition (ASR)-based data cleaning techniques. This process ensured the acquisition of a high-quality, multi-speaker, multi-dialect dataset suitable for TTS training. Subjective listening tests conducted using comparative mean opinion scores (CMOS) demonstrate that VoxHakka significantly outperforms existing publicly available Hakka TTS systems in terms of pronunciation accuracy, tone correctness, and overall naturalness. This work represents a significant advancement in Hakka language technology and provides a valuable resource for language preservation and revitalization efforts. | 翻訳日:2024-09-06 03:21:06 公開日:2024-09-03 |
# 自己指示型派生型プロンプト生成と文脈学習:ブラックボックスLLMの新たな可能性の解き放つ
Self-Instructed Derived Prompt Generation Meets In-Context Learning: Unlocking New Potential of Black-Box LLMs ( http://arxiv.org/abs/2409.01552v1 ) ライセンス: Link先を確認 | Zhuo Li, Yuhao Du, Jinpeng Hu, Xiang Wan, Anningzhe Gao, | (参考訳) 大規模言語モデル(LLM)は、高品質な応答を生成することに成功している。
ヒトの嗜好とLLMとの整合性を改善するため、特定の最適化プロセスに基づいて様々な研究が提案されているが、GPT-4のようなブラックボックスのLCMには、アクセス不能なパラメータにより適していない。
Black-Box LLMsの場合、その性能は提供されたプロンプトの品質に大きく依存する。
応答品質を向上させる既存の手法は、しばしば即時改善モデルを伴うが、これらのアプローチは、洗練されたプロンプトと元のプロンプトのセマンティックな矛盾に悩まされ、典型的にはそれらの関係を見落としている。
これらの課題に対処するため、我々はLLMが情報的文脈環境を構築するための信頼できる派生プロンプトを生成することにより、より効果的な応答を提供することができる自己指示型インコンテキスト学習フレームワークを導入する。
提案手法には自己指示型強化学習機構が組み込まれており, 導出プロンプト生成時の応答モデルとの直接的相互作用によりアライメントが向上する。
次に、LLMからの応答と派生したプロンプトを組み合わせて、クエリをコンテキスト内学習タスクとして定式化し、元のプロンプトのコンテキスト実証を確立する。
この戦略は、元のクエリとの整合性を確保し、洗練されたプロンプトから不一致を低減し、LLMのコンテキスト内学習能力を最大化する。
実験により,提案手法はより信頼性の高いプロンプトを生成するだけでなく,GPT-4 などの Black-Box モデルを含む,より効率的な応答を提供する LLM の能力を著しく向上することが示された。
Large language models (LLMs) have shown success in generating high-quality responses. In order to achieve better alignment with LLMs with human preference, various works are proposed based on specific optimization process, which, however, is not suitable to Black-Box LLMs like GPT-4, due to inaccessible parameters. In Black-Box LLMs case, their performance is highly dependent on the quality of the provided prompts. Existing methods to enhance response quality often involve a prompt refinement model, yet these approaches potentially suffer from semantic inconsistencies between the refined and original prompts, and typically overlook the relationship between them. To address these challenges, we introduce a self-instructed in-context learning framework that empowers LLMs to deliver more effective responses by generating reliable derived prompts to construct informative contextual environments. Our approach incorporates a self-instructed reinforcement learning mechanism, enabling direct interaction with the response model during derived prompt generation for better alignment. We then formulate querying as an in-context learning task, using responses from LLMs combined with the derived prompts to establish a contextual demonstration for the original prompt. This strategy ensures alignment with the original query, reduces discrepancies from refined prompts, and maximizes the LLMs' in-context learning capability. Extensive experiments demonstrate that the proposed method not only generates more reliable derived prompts but also significantly enhances LLMs' ability to deliver more effective responses, including Black-Box models such as GPT-4. | 翻訳日:2024-09-06 03:21:06 公開日:2024-09-03 |
# EA-RAS : 解剖学的骨格の高効率・高精度エンド・ツー・エンド再構築を目指して
EA-RAS: Towards Efficient and Accurate End-to-End Reconstruction of Anatomical Skeleton ( http://arxiv.org/abs/2409.01555v1 ) ライセンス: Link先を確認 | Zhiheng Peng, Kai Zhao, Xiaoran Chen, Li Ma, Siyu Xia, Changjie Fan, Weijian Shang, Wei Jing, | (参考訳) ヒト骨格情報の効率的かつ正確かつ低コストな推定は、生物学教育や人間とコンピュータの相互作用など、幅広い応用に欠かせない。
しかし、現在の単純な骨格モデルは通常2D-3Dの接合点に基づいており、解剖学的な忠実さの観点からは不足しており、フィールドでの有効性を制限している。
一方、より複雑なモデルは解剖学的に正確だが、高度なマルチステージ処理とスキンメッシュのような余分なデータを必要とするため、リアルタイムアプリケーションには適さない。
この目的のために,単段,軽量,プラグアンドプレイの解剖学的骨格推定器であるEA-RAS(Towards Efficient and Accurate End-to-End Reconstruction of Anatomical Skeleton)を提案する。
さらに、EA-RASは、機能を強化するだけでなく、内部の骨格モデリングプロセスに機能を統合することで外部の皮膚情報も活用する従来のヒト・メシュモデルを明示的に推定する。
本研究は, プログレッシブトレーニング戦略を開発し, 改良された最適化プロセスと統合することにより, 小さなスキンデータセットのみを用いて初期重み付けを行い, 骨格再構築における自己監督を実現する。
さらに、リアルタイム処理よりも精度を優先するシナリオの精度をさらに向上するための、オプションの軽量な後処理最適化戦略も提供します。
実験により,我々の回帰法は既存手法の800倍以上の速度で,リアルタイム要求を満たすことを示した。
さらに、提供された後処理最適化戦略は、再構築精度を50%以上向上させ、7回以上の高速化を実現することができる。
Efficient, accurate and low-cost estimation of human skeletal information is crucial for a range of applications such as biology education and human-computer interaction. However, current simple skeleton models, which are typically based on 2D-3D joint points, fall short in terms of anatomical fidelity, restricting their utility in fields. On the other hand, more complex models while anatomically precise, are hindered by sophisticate multi-stage processing and the need for extra data like skin meshes, making them unsuitable for real-time applications. To this end, we propose the EA-RAS (Towards Efficient and Accurate End-to-End Reconstruction of Anatomical Skeleton), a single-stage, lightweight, and plug-and-play anatomical skeleton estimator that can provide real-time, accurate anatomically realistic skeletons with arbitrary pose using only a single RGB image input. Additionally, EA-RAS estimates the conventional human-mesh model explicitly, which not only enhances the functionality but also leverages the outside skin information by integrating features into the inside skeleton modeling process. In this work, we also develop a progressive training strategy and integrated it with an enhanced optimization process, enabling the network to obtain initial weights using only a small skin dataset and achieve self-supervision in skeleton reconstruction. Besides, we also provide an optional lightweight post-processing optimization strategy to further improve accuracy for scenarios that prioritize precision over real-time processing. The experiments demonstrated that our regression method is over 800 times faster than existing methods, meeting real-time requirements. Additionally, the post-processing optimization strategy provided can enhance reconstruction accuracy by over 50% and achieve a speed increase of more than 7 times. | 翻訳日:2024-09-06 03:21:06 公開日:2024-09-03 |
# LLMのための認知ドメインのベンチマーク:台湾のハッカ文化から
Benchmarking Cognitive Domains for LLMs: Insights from Taiwanese Hakka Culture ( http://arxiv.org/abs/2409.01556v1 ) ライセンス: Link先を確認 | Chen-Chi Chang, Ching-Yuan Chen, Hung-Shin Lee, Chih-Cheng Lee, | (参考訳) 本研究では,大規模言語モデル(LLM)の文化的知識の理解と処理における性能を評価するための総合的なベンチマークについて紹介する。
ブルームの分類を利用して、この研究は6つの認知領域(記憶、理解、応用、分析、評価、創造)にわたるLSMを体系的に評価する多次元フレームワークを開発した。
このベンチマークは、事実の基本的なリコールから創造的合成のような高次認知タスクまで、文化的に特定のコンテンツを扱うLLMの能力をより深く分析することで、従来の単一次元評価を超えて拡張される。
さらに、LLMにおける少数派の文化的知識表現の課題に対処するために、検索・拡張生成(RAG)技術を統合し、RAGが関連する外部情報を動的に組み込むことによってモデルの性能をいかに向上させるかを実証した。
その結果,すべての認知領域,特に文化知識の正確な検索と応用を必要とするタスクにおいて,RAGの有効性が強調された。
しかし、この発見はまた、創造的なタスクにおけるRAGの限界を明らかにし、さらなる最適化の必要性を強調している。
このベンチマークは、文化的に多様な文脈でLLMを評価し、比較するための堅牢なツールを提供し、AIによる文化知識の保存と普及における将来の研究と開発のための貴重な洞察を提供する。
This study introduces a comprehensive benchmark designed to evaluate the performance of large language models (LLMs) in understanding and processing cultural knowledge, with a specific focus on Hakka culture as a case study. Leveraging Bloom's Taxonomy, the study develops a multi-dimensional framework that systematically assesses LLMs across six cognitive domains: Remembering, Understanding, Applying, Analyzing, Evaluating, and Creating. This benchmark extends beyond traditional single-dimensional evaluations by providing a deeper analysis of LLMs' abilities to handle culturally specific content, ranging from basic recall of facts to higher-order cognitive tasks such as creative synthesis. Additionally, the study integrates Retrieval-Augmented Generation (RAG) technology to address the challenges of minority cultural knowledge representation in LLMs, demonstrating how RAG enhances the models' performance by dynamically incorporating relevant external information. The results highlight the effectiveness of RAG in improving accuracy across all cognitive domains, particularly in tasks requiring precise retrieval and application of cultural knowledge. However, the findings also reveal the limitations of RAG in creative tasks, underscoring the need for further optimization. This benchmark provides a robust tool for evaluating and comparing LLMs in culturally diverse contexts, offering valuable insights for future research and development in AI-driven cultural knowledge preservation and dissemination. | 翻訳日:2024-09-06 03:06:29 公開日:2024-09-03 |
# TASL-Net:バイモーダル超音波映像のインテリジェント診断のための三段階選択学習ネットワーク
TASL-Net: Tri-Attention Selective Learning Network for Intelligent Diagnosis of Bimodal Ultrasound Video ( http://arxiv.org/abs/2409.01557v1 ) ライセンス: Link先を確認 | Chengqian Zhao, Zhao Yao, Zhaoyu Hu, Yuanxin Xie, Yafang Zhang, Yuanyuan Wang, Shuo Li, Jianhua Zhou, Jianqiao Zhou, Yin Wang, Jinhua Yu, | (参考訳) バイモーダル(グレースケールでコントラストが強化された)超音波ビデオのインテリジェントな診断において、ソノグラフィーがビデオを見る方法、特に強調する領域、特に注意を払う特徴といった医療領域の知識は、正確な診断を促進する上で決定的な役割を担っている。
深層学習ネットワークに医療知識を組み込むことは、パフォーマンスを高めるだけでなく、ネットワークの信頼性と信頼性を高めることができる。
しかし、ビデオ中のこれらの人や病気特有の機能に自動的にフォーカスし、ネットワークが包括的かつ効率的にバイモーダル情報をエンコードできるようにすることは、難易度の高い課題である。
本稿では, この課題に対処し, 超音波ビデオのインテリジェント診断のための相互変換フレームワークに, ソノグラフィーの3種類の診断注意を自動的に組み込むための, 新たなTri-Attention Selective Learning Network(TASL-Net)を提案する。
まず、時間強度曲線に基づくビデオセレクタは、ソノグラフィーの時間的注意を模倣するように設計され、TASL-Netの計算効率を向上しつつ、大量の冗長情報を除去する。
そこで, コントラスト強調ビデオ解析のためのソノグラフィーの空間的注意を喚起するために, TASL-Netを用いて病変内外における拡散変動の違いに着目した, 構造的類似性の変化に基づく最初期の位置検出法を提案する。
最後に、畳み込みと変圧器を組み合わせた相互符号化戦略を提案することにより、TASL-Netは、グレースケールビデオ上の構造特徴とコントラスト付きビデオ上の拡散変動にバイモーダルな注意を払っている。
これらのモジュールは協調して動作し、優れたパフォーマンスに貢献します。
肺,乳房,肝臓の3つのデータセット上でTASL-Netの性能を詳細に検証した。
In the intelligent diagnosis of bimodal (gray-scale and contrast-enhanced) ultrasound videos, medical domain knowledge such as the way sonographers browse videos, the particular areas they emphasize, and the features they pay special attention to, plays a decisive role in facilitating precise diagnosis. Embedding medical knowledge into the deep learning network can not only enhance performance but also boost clinical confidence and reliability of the network. However, it is an intractable challenge to automatically focus on these person- and disease-specific features in videos and to enable networks to encode bimodal information comprehensively and efficiently. This paper proposes a novel Tri-Attention Selective Learning Network (TASL-Net) to tackle this challenge and automatically embed three types of diagnostic attention of sonographers into a mutual transformer framework for intelligent diagnosis of bimodal ultrasound videos. Firstly, a time-intensity-curve-based video selector is designed to mimic the temporal attention of sonographers, thus removing a large amount of redundant information while improving computational efficiency of TASL-Net. Then, to introduce the spatial attention of the sonographers for contrast-enhanced video analysis, we propose the earliest-enhanced position detector based on structural similarity variation, on which the TASL-Net is made to focus on the differences of perfusion variation inside and outside the lesion. Finally, by proposing a mutual encoding strategy that combines convolution and transformer, TASL-Net possesses bimodal attention to structure features on gray-scale videos and to perfusion variations on contrast-enhanced videos. These modules work collaboratively and contribute to superior performance. We conduct a detailed experimental validation of TASL-Net's performance on three datasets, including lung, breast, and liver. | 翻訳日:2024-09-06 03:06:29 公開日:2024-09-03 |
# プローブとしてのブロック:大規模マルチモーダルモデルの分類能力の分離
Blocks as Probes: Dissecting Categorization Ability of Large Multimodal Models ( http://arxiv.org/abs/2409.01560v1 ) ライセンス: Link先を確認 | Bin Fu, Qiyang Wan, Jialin Li, Ruiping Wang, Xilin Chen, | (参考訳) 分類は、共通の特徴に基づいてオブジェクトを整理する人間の中核的な認知能力であり、認知科学だけでなくコンピュータビジョンにも不可欠である。
ビジュアルAIモデルの分類能力を評価するため、データセットからオープンワールドシナリオへの認識における様々なプロキシタスクが提案されている。
近年のLMM(Large Multimodal Models)は,視覚的質問応答やビデオ時間的推論,高度なアーキテクチャの活用,大規模マルチモーダル指導のチューニングなど,高度な視覚的タスクにおいて顕著な成果を上げている。
従来の研究者は、LMMの高レベルな視覚能力を測定するための総合的なベンチマークを開発してきたが、最も基本的な分類能力の純粋で詳細な定量的評価はいまだに存在しない。
人間の認知過程の研究によると、分類はカテゴリー学習とカテゴリー利用の2つの部分を含むと見なすことができる。
そこで我々はComBoという複合ブロックをベースとした,新しい,挑戦的で効率的なベンチマークを提案し,このベンチマークは不整合評価フレームワークを提供し,学習から使用までの分類プロセス全体をカバーしている。
複数の評価課題の結果を分析することで,LMMは新たなカテゴリの学習において許容できる一般化能力を示すが,空間的関係のきめ細かい認識や抽象的カテゴリ理解など,多くの点で人間との違いがあることがわかった。
分類の研究を通じて、解釈可能性と一般化の観点からLMMのさらなる発展にインスピレーションを与えることができる。
Categorization, a core cognitive ability in humans that organizes objects based on common features, is essential to cognitive science as well as computer vision. To evaluate the categorization ability of visual AI models, various proxy tasks on recognition from datasets to open world scenarios have been proposed. Recent development of Large Multimodal Models (LMMs) has demonstrated impressive results in high-level visual tasks, such as visual question answering, video temporal reasoning, etc., utilizing the advanced architectures and large-scale multimodal instruction tuning. Previous researchers have developed holistic benchmarks to measure the high-level visual capability of LMMs, but there is still a lack of pure and in-depth quantitative evaluation of the most fundamental categorization ability. According to the research on human cognitive process, categorization can be seen as including two parts: category learning and category use. Inspired by this, we propose a novel, challenging, and efficient benchmark based on composite blocks, called ComBo, which provides a disentangled evaluation framework and covers the entire categorization process from learning to use. By analyzing the results of multiple evaluation tasks, we find that although LMMs exhibit acceptable generalization ability in learning new categories, there are still gaps compared to humans in many ways, such as fine-grained perception of spatial relationship and abstract category understanding. Through the study of categorization, we can provide inspiration for the further development of LMMs in terms of interpretability and generalization. | 翻訳日:2024-09-06 03:06:29 公開日:2024-09-03 |
# ReSpike: 効率的な行動認識のための残留フレームに基づくハイブリッドスパイクニューラルネットワーク
ReSpike: Residual Frames-based Hybrid Spiking Neural Networks for Efficient Action Recognition ( http://arxiv.org/abs/2409.01564v1 ) ライセンス: Link先を確認 | Shiting Xiao, Yuhang Li, Youngeun Kim, Donghyun Lee, Priyadarshini Panda, | (参考訳) Spiking Neural Networks (SNN) は、画像分類やセグメンテーションなどの静的イメージタスクにおいて、従来のニューラルネットワーク(ANN)に代わる、魅力的なエネルギー効率の高い代替手段として登場した。
しかし、より複雑なビデオ分類領域では、高密度フレームシーケンスの処理が困難であるため、SNNベースの手法はANNベースのベンチマークにかなり劣っている。
このギャップを埋めるために、我々はANNとSNNの強みを相乗化するハイブリッドフレームワークReSpikeを提案し、高い精度と低エネルギーコストで行動認識タスクに取り組む。
映像クリップを空間的・時間的要素、すなわちRGBイメージのキーフレームとイベントライクな残留フレームに分解することで、ReSpikeは空間的情報学習にANN、時間的情報学習にSNNを利用する。
さらに,効率的な機能融合のためのマルチスケールのクロスアテンション機構を提案する。
最先端のSNNベースラインと比較して、我々のReSpikeハイブリッドアーキテクチャは、大幅なパフォーマンス向上(例えば、HMDB-51、UCF-101、Kinetics-400における30%の絶対精度の改善)を示しています。
さらに、ReSpikeは従来のANNアプローチと同等のパフォーマンスを実現し、精度とエネルギーのトレードオフを改善している。
Spiking Neural Networks (SNNs) have emerged as a compelling, energy-efficient alternative to traditional Artificial Neural Networks (ANNs) for static image tasks such as image classification and segmentation. However, in the more complex video classification domain, SNN-based methods fall considerably short of ANN-based benchmarks due to the challenges in processing dense frame sequences. To bridge this gap, we propose ReSpike, a hybrid framework that synergizes the strengths of ANNs and SNNs to tackle action recognition tasks with high accuracy and low energy cost. By decomposing film clips into spatial and temporal components, i.e., RGB image Key Frames and event-like Residual Frames, ReSpike leverages ANN for learning spatial information and SNN for learning temporal information. In addition, we propose a multi-scale cross-attention mechanism for effective feature fusion. Compared to state-of-the-art SNN baselines, our ReSpike hybrid architecture demonstrates significant performance improvements (e.g., >30% absolute accuracy improvement on HMDB-51, UCF-101, and Kinetics-400). Furthermore, ReSpike achieves comparable performance with prior ANN approaches while bringing better accuracy-energy tradeoff. | 翻訳日:2024-09-06 03:06:29 公開日:2024-09-03 |
# ニューラルネットワークにおける創発性の定量化:プルーニングとトレーニングダイナミクスからの洞察
Quantifying Emergence in Neural Networks: Insights from Pruning and Training Dynamics ( http://arxiv.org/abs/2409.01568v1 ) ライセンス: Link先を確認 | Faisal AlShinaifi, Zeyad Almoaigel, Johnny Jingze Li, Abdulla Kuleib, Gabriel A. Silva, | (参考訳) ネットワーク内の単純なコンポーネントの相互作用から複雑な振る舞いが発展するEmergenceは、ニューラルネットワーク機能を強化する上で重要な役割を果たす。
本稿では,トレーニング過程の出現を定量的に測定し,ネットワーク性能,特に刈り取りとトレーニングのダイナミクスとの関連性について検討する。
我々の仮説は、アクティブノードと非アクティブノードの接続によって定義される出現度が、ネットワークにおける創発的行動の発生を予測することができることを示唆している。
ベンチマークデータセット上のフィードフォワードおよび畳み込みアーキテクチャの実験を通じて、より高い出現率とトレーニング容易性とパフォーマンスの相関が示されている。
さらに,ネットワークの複雑度と損失景観の関係を考察し,局地的な最小値の集中度が増大し,損失景観が悪化することが示唆された。
冗長なノードやコネクションを取り除くことでネットワークの複雑さを低減するPruningは、トレーニング効率と収束速度を向上するが、最終的な精度は低下する可能性がある。
これらの発見は、ニューラルネットワークの出現、複雑さ、パフォーマンスの間の相互作用に関する新たな洞察を与え、より効率的なアーキテクチャの設計と最適化に価値のある意味を提供する。
Emergence, where complex behaviors develop from the interactions of simpler components within a network, plays a crucial role in enhancing neural network capabilities. We introduce a quantitative framework to measure emergence during the training process and examine its impact on network performance, particularly in relation to pruning and training dynamics. Our hypothesis posits that the degree of emergence, defined by the connectivity between active and inactive nodes, can predict the development of emergent behaviors in the network. Through experiments with feedforward and convolutional architectures on benchmark datasets, we demonstrate that higher emergence correlates with improved trainability and performance. We further explore the relationship between network complexity and the loss landscape, suggesting that higher emergence indicates a greater concentration of local minima and a more rugged loss landscape. Pruning, which reduces network complexity by removing redundant nodes and connections, is shown to enhance training efficiency and convergence speed, though it may lead to a reduction in final accuracy. These findings provide new insights into the interplay between emergence, complexity, and performance in neural networks, offering valuable implications for the design and optimization of more efficient architectures. | 翻訳日:2024-09-06 03:06:29 公開日:2024-09-03 |
# 滑らかなロバスト相検索
Smoothed Robust Phase Retrieval ( http://arxiv.org/abs/2409.01570v1 ) ライセンス: Link先を確認 | Zhong Zheng, Lingzhou Xue, | (参考訳) ノイズの存在下での位相探索問題は、希少かつ任意の破損を伴う二次的な測定の集合から興味のある信号ベクトルを復元することを目的としており、多くの科学的応用において重要な役割を果たす。
しかし、$\ell_1$-lossに基づく非凸ロバスト位相検索の基本的な幾何学構造は、理想的なノイズのない設定下であっても、急激な局所解を研究することはほとんど知られていない。
本稿では、畳み込み型スムーズな損失関数の族に基づくスムーズなロバスト位相探索(SRPR)を提案する。
理論的には、SRPRは高い確率で良質な幾何学的構造を保っていることを証明している:(1)ノイズのない状況下では、SRPRは急激な局所解がなく、目的の信号は大域的な解であり、(2)頻繁だが任意な汚職の下では、SRPRの静止点を特徴づけ、その良質な景観を証明し、文献の汚職による位相回復の初めてのランドスケープ解析である。
さらに、雑音のない状況下でSRPRを解くために勾配降下の局所線形収束速度を証明した。
SRPRの数値性能を示すため、シミュレーションデータセットと画像復元の両方の実験を行った。
The phase retrieval problem in the presence of noise aims to recover the signal vector of interest from a set of quadratic measurements with infrequent but arbitrary corruptions, and it plays an important role in many scientific applications. However, the essential geometric structure of the nonconvex robust phase retrieval based on the $\ell_1$-loss is largely unknown to study spurious local solutions, even under the ideal noiseless setting, and its intrinsic nonsmooth nature also impacts the efficiency of optimization algorithms. This paper introduces the smoothed robust phase retrieval (SRPR) based on a family of convolution-type smoothed loss functions. Theoretically, we prove that the SRPR enjoys a benign geometric structure with high probability: (1) under the noiseless situation, the SRPR has no spurious local solutions, and the target signals are global solutions, and (2) under the infrequent but arbitrary corruptions, we characterize the stationary points of the SRPR and prove its benign landscape, which is the first landscape analysis of phase retrieval with corruption in the literature. Moreover, we prove the local linear convergence rate of gradient descent for solving the SRPR under the noiseless situation. Experiments on both simulated datasets and image recovery are provided to demonstrate the numerical performance of the SRPR. | 翻訳日:2024-09-06 03:06:29 公開日:2024-09-03 |
# CT-SDM : 全サンプリングレートにわたるスパースビューCT再構成のためのサンプリング拡散モデル
CT-SDM: A Sampling Diffusion Model for Sparse-View CT Reconstruction across All Sampling Rates ( http://arxiv.org/abs/2409.01571v1 ) ライセンス: Link先を確認 | Liutao Yang, Jiahao Huang, Guang Yang, Daoqiang Zhang, | (参考訳) Sparse view X-ray Computed tomography は、放射線量を減らす現代的な手法として登場した。
プロジェクションビューの減少により、従来の再構築手法は深刻なアーティファクトに繋がる可能性がある。
近年,深層学習を用いた研究は,Sparse-View Computed Tomography (SVCT) のアーティファクトの除去に有望な進展をもたらした。
しかし、ディープラーニングモデルの一般化能力の限界を考えると、現在の手法は通常、一定のサンプリングレートでモデルを訓練し、実際の臨床環境でのモデルのデプロイのユーザビリティと柔軟性に影響を与える。
そこで本研究では,任意のサンプリングレートで高性能SVCT再構成を実現するための適応的再構成手法を提案する。
具体的には, SVCT (CT-SDM) のサンプリング拡散モデルにおける新しい画像劣化演算子を設計し, シングラム領域の投影過程をシミュレートする。
したがって、CT-SDMはプロジェクションビューを高度にアンサンプされた測定に徐々に追加し、フルビュー・シングラムを一般化することができる。
拡散推論において適切な開始点を選択することにより,提案モデルでは,任意のサンプリングレートから1つの訓練されたモデルのみを用いて,フルビュー・シングラムを復元することができる。
提案手法の有効性とロバスト性を検証し,スパークビューCTスキャンによる高画質画像の再構成において,様々なサンプリングレートでその優位性を実証した。
Sparse views X-ray computed tomography has emerged as a contemporary technique to mitigate radiation dose. Because of the reduced number of projection views, traditional reconstruction methods can lead to severe artifacts. Recently, research studies utilizing deep learning methods has made promising progress in removing artifacts for Sparse-View Computed Tomography (SVCT). However, given the limitations on the generalization capability of deep learning models, current methods usually train models on fixed sampling rates, affecting the usability and flexibility of model deployment in real clinical settings. To address this issue, our study proposes a adaptive reconstruction method to achieve high-performance SVCT reconstruction at any sampling rate. Specifically, we design a novel imaging degradation operator in the proposed sampling diffusion model for SVCT (CT-SDM) to simulate the projection process in the sinogram domain. Thus, the CT-SDM can gradually add projection views to highly undersampled measurements to generalize the full-view sinograms. By choosing an appropriate starting point in diffusion inference, the proposed model can recover the full-view sinograms from any sampling rate with only one trained model. Experiments on several datasets have verified the effectiveness and robustness of our approach, demonstrating its superiority in reconstructing high-quality images from sparse-view CT scans across various sampling rates. | 翻訳日:2024-09-06 03:06:29 公開日:2024-09-03 |
# LSSF-Net: 自己認識, 空間意識, 焦点変調による軽量セグメンテーション
LSSF-Net: Lightweight Segmentation with Self-Awareness, Spatial Attention, and Focal Modulation ( http://arxiv.org/abs/2409.01572v1 ) ライセンス: Link先を確認 | Hamza Farooq, Zuhair Zafar, Ahsan Saadat, Tariq M Khan, Shahzaib Iqbal, Imran Razzak, | (参考訳) 皮膚内視鏡像における皮膚病変の正確なセグメンテーションは,モバイルプラットフォーム上でのコンピュータ支援診断において,皮膚がんのタイムリー同定において重要な役割を担っている。
しかし、病変の様々な形状、定義された縁の欠如、毛糸やマーカーの色などの障害の存在により、この課題はより複雑になる。
さらに、肌の病変は、周囲の健康な皮膚と区別が難しいテクスチャや色の微妙な変化を示すことが多い。
現在、メラノーマセグメンテーションモデルは、完全に接続されたネットワークとU-Netに基づいている。
しかし,これらのモデルでは,不明瞭な境界の存在や多彩な病変の出現など,皮膚病変の複雑かつ多様な特徴を捉えることに苦慮することが多く,これらの課題に対処するために,モバイルデバイスを利用した皮膚病変のセグメンテーションに特化した軽量ネットワークを提案し,学習可能なパラメータを最小限に設定する(0.8万件)。
本ネットワークは、コンバータに基づく焦点変調注意、自己認識型局所的及びグローバル空間的注意、チャネルシャッフルの分割を含むエンコーダデコーダアーキテクチャを含む。
本モデルの有効性は,ISIC 2016,ISIC 2017,ISIC 2018,PH2という,皮膚病変のセグメンテーションのために確立された4つのベンチマークデータセットで評価されている。
経験的所見は、Jaccardの指標に顕著な、最先端のパフォーマンスを裏付けるものである。
Accurate segmentation of skin lesions within dermoscopic images plays a crucial role in the timely identification of skin cancer for computer-aided diagnosis on mobile platforms. However, varying shapes of the lesions, lack of defined edges, and the presence of obstructions such as hair strands and marker colors make this challenge more complex. \textcolor{red}Additionally, skin lesions often exhibit subtle variations in texture and color that are difficult to differentiate from surrounding healthy skin, necessitating models that can capture both fine-grained details and broader contextual information. Currently, melanoma segmentation models are commonly based on fully connected networks and U-Nets. However, these models often struggle with capturing the complex and varied characteristics of skin lesions, such as the presence of indistinct boundaries and diverse lesion appearances, which can lead to suboptimal segmentation performance.To address these challenges, we propose a novel lightweight network specifically designed for skin lesion segmentation utilizing mobile devices, featuring a minimal number of learnable parameters (only 0.8 million). This network comprises an encoder-decoder architecture that incorporates conformer-based focal modulation attention, self-aware local and global spatial attention, and split channel-shuffle. The efficacy of our model has been evaluated on four well-established benchmark datasets for skin lesion segmentation: ISIC 2016, ISIC 2017, ISIC 2018, and PH2. Empirical findings substantiate its state-of-the-art performance, notably reflected in a high Jaccard index. | 翻訳日:2024-09-06 03:06:29 公開日:2024-09-03 |
# Occlusion-Enhanced Distillation によるApple オブジェクト検出の改善
Improving Apple Object Detection with Occlusion-Enhanced Distillation ( http://arxiv.org/abs/2409.01573v1 ) ライセンス: Link先を確認 | Liang Geng, | (参考訳) 自然環境で成長するリンゴは、しばしば葉や枝から激しい視覚障害に直面する。
これにより、オブジェクト検出タスクにおける偽検出のリスクが大幅に増加し、課題がエスカレートされる。
この問題に対処するため,オクルージョン強化蒸留(OED)と呼ばれる技術を導入する。
このアプローチでは、隠蔽情報を用いて、隠蔽されたデータセット上の意味的に整合した特徴の学習を規則化し、訓練安定性を高めるために指数移動平均(EMA)を用いる。
具体的には,まずDINO法とSAM法を統合したオクルージョン強化データセットを設計し,各試料から葉や枝などのオクルージョン要素を抽出し,果実の自然成長状態を反映したオクルージョン例を作成する。
また, 学生ネットワークでは, 教師ネットワークでは, 自然閉塞のない画像を用いているのに対し, 教師ネットワークでは, 学習者ネットワークでは, 入力としてオクルージョンが増大した画像を使用するマルチスケールの知識蒸留戦略を提案する。
この設定により、教師ネットワークは、意味的・局所的な特徴アライメントのスケールを越えて学習し、隠蔽対象と非隠蔽対象との間の特徴距離を効果的に狭め、オブジェクト検出の堅牢性を高める。
最後に,学生ネットワークの安定性を向上させるために,個々の画像閉塞音の影響を受けない,より一般化された特徴表現の学習を支援するEMA戦略を導入する。
提案手法は, 広範囲な比較実験により, 最先端技術よりも優れていた。
Apples growing in natural environments often face severe visual obstructions from leaves and branches. This significantly increases the risk of false detections in object detection tasks, thereby escalating the challenge. Addressing this issue, we introduce a technique called "Occlusion-Enhanced Distillation" (OED). This approach utilizes occlusion information to regularize the learning of semantically aligned features on occluded datasets and employs Exponential Moving Average (EMA) to enhance training stability. Specifically, we first design an occlusion-enhanced dataset that integrates Grounding DINO and SAM methods to extract occluding elements such as leaves and branches from each sample, creating occlusion examples that reflect the natural growth state of fruits. Additionally, we propose a multi-scale knowledge distillation strategy, where the student network uses images with increased occlusions as inputs, while the teacher network employs images without natural occlusions. Through this setup, the strategy guides the student network to learn from the teacher across scales of semantic and local features alignment, effectively narrowing the feature distance between occluded and non-occluded targets and enhancing the robustness of object detection. Lastly, to improve the stability of the student network, we introduce the EMA strategy, which aids the student network in learning more generalized feature expressions that are less affected by the noise of individual image occlusions. Our method significantly outperforms current state-of-the-art techniques through extensive comparative experiments. | 翻訳日:2024-09-06 03:06:29 公開日:2024-09-03 |
# 最適並列テンパリングMCMCの政策勾配
Policy Gradients for Optimal Parallel Tempering MCMC ( http://arxiv.org/abs/2409.01574v1 ) ライセンス: Link先を確認 | Daniel Zhao, Natesh S. Pillai, | (参考訳) 並列のテンパリングは、マルコフ・チェイン・モンテカルロ(英語版)のメタアルゴリズムであり、ターゲット分布のテンパリングされたバージョンから複数の連鎖をサンプリングし、従来の方法では難しいマルチモーダル分布の混合を強化する。
並列加熱の有効性は,チェーン温度の選択によって大きく影響される。
本稿では,政策勾配法を用いてサンプリング中の温度を動的に調整する適応温度選択アルゴリズムを提案する。
実験により,従来の幾何学的空間温度とベンチマーク分布の均一な受容率スキームと比較して,統合的自己相関時間(自己相関時間)が低いことを示す。
Parallel tempering is meta-algorithm for Markov Chain Monte Carlo that uses multiple chains to sample from tempered versions of the target distribution, enhancing mixing in multi-modal distributions that are challenging for traditional methods. The effectiveness of parallel tempering is heavily influenced by the selection of chain temperatures. Here, we present an adaptive temperature selection algorithm that dynamically adjusts temperatures during sampling using a policy gradient approach. Experiments demonstrate that our method can achieve lower integrated autocorrelation times compared to traditional geometrically spaced temperatures and uniform acceptance rate schemes on benchmark distributions. | 翻訳日:2024-09-06 03:06:29 公開日:2024-09-03 |
# LLMを信頼しないWerewolfエージェントの実装
An Implementation of Werewolf Agent That does not Truly Trust LLMs ( http://arxiv.org/abs/2409.01575v1 ) ライセンス: Link先を確認 | Takehiro Sato, Shintaro Ozaki, Daisaku Yokoyama, | (参考訳) ワイアウルフ(Werewolf)は、コンピュータエージェントをプレイヤーとして作成する際に、発話の状況と個人性(例えば、コンピュータエージェントは特徴的発話や状況的嘘をつくことができない)の理解が欠如していることを考えると、いくつかの課題がある不完全な情報ゲームである。
本稿では,Large Language Model (LLM) とルールベースアルゴリズムを組み合わせることで,これらの問題の一部を解消するワーウルフエージェントを提案する。
特に,本エージェントはルールベースアルゴリズムを用いて,LLMを用いた会話履歴の分析結果に基づいて,予め作成したLLMまたはテンプレートから出力を選択する。
エージェントは特定の状況で反抗し、いつ会話を終わらせるかを識別し、ペルソナと振る舞うことができる。
このアプローチは会話の不整合を緩和し、結果として論理的発話を促進する。
また, 定性評価を行い, その結果, 修飾されていないLDMに比べて, エージェントは人間に近いと認識された。
このエージェントは、Werewolfゲームの研究の進展に貢献するために自由に利用できる。
Werewolf is an incomplete information game, which has several challenges when creating a computer agent as a player given the lack of understanding of the situation and individuality of utterance (e.g., computer agents are not capable of characterful utterance or situational lying). We propose a werewolf agent that solves some of those difficulties by combining a Large Language Model (LLM) and a rule-based algorithm. In particular, our agent uses a rule-based algorithm to select an output either from an LLM or a template prepared beforehand based on the results of analyzing conversation history using an LLM. It allows the agent to refute in specific situations, identify when to end the conversation, and behave with persona. This approach mitigated conversational inconsistencies and facilitated logical utterance as a result. We also conducted a qualitative evaluation, which resulted in our agent being perceived as more human-like compared to an unmodified LLM. The agent is freely available for contributing to advance the research in the field of Werewolf game. | 翻訳日:2024-09-06 03:06:29 公開日:2024-09-03 |
# EvoChart: リアルタイムチャート理解に向けたベンチマークと自己学習アプローチ
EvoChart: A Benchmark and a Self-Training Approach Towards Real-World Chart Understanding ( http://arxiv.org/abs/2409.01577v1 ) ライセンス: Link先を確認 | Muye Huang, Lai Han, Xinyu Zhang, Wenjun Wu, Jie Ma, Lingling Zhang, Jun Liu, | (参考訳) チャート理解は人間の自動データ分析を可能にし、高精度な視覚的理解を実現するためにモデルを必要とする。
既存のVisual Language Models (VLM) は、チャート理解の進歩を示しているが、高品質なトレーニングデータと包括的な評価ベンチマークの欠如は、VLMチャートの理解を妨げている。
本稿では,実世界のチャート理解におけるVLMの能力を高めるために,合成チャートデータを生成する新しい自己学習手法であるEvoChartを紹介する。
EvoChart-QAも提案する。これは実世界のシナリオにおいて,モデルのチャート理解能力を測定するためのNovalベンチマークである。
具体的には、EvoChartは、高品質な学習コーパスと高性能なチャート理解モデルを同時に生成するユニークな自己学習データ合成アプローチである。
EvoChart-QAは、140の異なるウェブサイトから収集された650の異なる現実世界のチャートと、チャートの理解に焦点を当てた専門家による1,250の質問で構成されている。
EvoChart-QAでテストされた様々なオープンソースおよびプロプライエタリなVLMの実験結果は、最高のプロプライエタリモデルであるGPT-4oでさえ49.8%の精度しか達成していないことを示した。
さらに、EvoChart法は、実世界のチャート理解タスクにおけるオープンソースのVLMの性能を大幅に向上させ、EvoChart-QA上で54.2%の精度を達成する。
Chart understanding enables automated data analysis for humans, which requires models to achieve highly accurate visual comprehension. While existing Visual Language Models (VLMs) have shown progress in chart understanding, the lack of high-quality training data and comprehensive evaluation benchmarks hinders VLM chart comprehension. In this paper, we introduce EvoChart, a novel self-training method for generating synthetic chart data to enhance VLMs' capabilities in real-world chart comprehension. We also propose EvoChart-QA, a noval benchmark for measuring models' chart comprehension abilities in real-world scenarios. Specifically, EvoChart is a unique self-training data synthesis approach that simultaneously produces high-quality training corpus and a high-performance chart understanding model. EvoChart-QA consists of 650 distinct real-world charts collected from 140 different websites and 1,250 expert-curated questions that focus on chart understanding. Experimental results on various open-source and proprietary VLMs tested on EvoChart-QA demonstrate that even the best proprietary model, GPT-4o, achieves only 49.8% accuracy. Moreover, the EvoChart method significantly boosts the performance of open-source VLMs on real-world chart understanding tasks, achieving 54.2% accuracy on EvoChart-QA. | 翻訳日:2024-09-06 03:06:29 公開日:2024-09-03 |
# AdaComp:Retrieval-Augmented Large Language ModelのためのAdaptive Predictorを用いた抽出コンテキスト圧縮
AdaComp: Extractive Context Compression with Adaptive Predictor for Retrieval-Augmented Large Language Models ( http://arxiv.org/abs/2409.01579v1 ) ライセンス: Link先を確認 | Qianchi Zhang, Hainan Zhang, Liang Pang, Hongwei Zheng, Zhiming Zheng, | (参考訳) ノイズを含む検索された文書は、RAGが答えの手がかりを検知するのを妨げ、推論プロセスを遅く、高価にする。
したがって、コンテキスト圧縮は、その精度と効率を高めるために必要である。
既存の文脈圧縮法では、抽出的または生成的モデルを用いて、最もクエリ関連のある文を保持するか、あるいは十分な情報を保持するために情報ボトルネック理論を適用している。
しかし、これらの手法は過剰圧縮や高い計算コストといった問題に直面する可能性がある。
検索者が関連文書を上位にランク付けすることが多いが、クエリの複雑さや検索品質の影響により、クエリに答えるために必要な文書の正確な数は不確実である:マルチホップ質問のような複雑なクエリは、単純なクエリよりも多くのドキュメントを保持する必要があり、低品質の検索は、正確な出力を生成するためにより多くのドキュメントに依存する必要がある。
したがって、RAGにとって必要最小限の文書数(圧縮率)を決定することは依然として課題である。
本稿では,クエリの複雑さと検索品質の両方に基づいて圧縮率を適応的に決定する,低コストな抽出文脈圧縮手法であるAdaCompを紹介する。
具体的には、まずRAGシステムに必要な最小トップk文書を圧縮率としてアノテートし、その後、検索された文書とその圧縮率のトリプレットを構築する。
次に、この三重項データセットを使用して、圧縮速度予測器をトレーニングします。
3つのQAデータセットと1つの会話型Muiti-doc QAデータセットの実験から、AdaCompは、非圧縮モデルに近いパフォーマンスを維持しながら、推論コストを著しく削減し、効率とパフォーマンスのバランスを達成している。
Retrieved documents containing noise will hinder RAG from detecting answer clues and make the inference process slow and expensive. Therefore, context compression is necessary to enhance its accuracy and efficiency. Existing context compression methods use extractive or generative models to retain the most query-relevant sentences or apply the information bottleneck theory to preserve sufficient information. However, these methods may face issues such as over-compression or high computational costs. We observe that the retriever often ranks relevant documents at the top, but the exact number of documents needed to answer the query is uncertain due to the impact of query complexity and retrieval quality: complex queries like multi-hop questions may require retaining more documents than simpler queries, and a low-quality retrieval may need to rely on more documents to generate accurate outputs. Therefore, determining the minimum number of required documents (compression rate) is still a challenge for RAG. In this paper, we introduce AdaComp, a low-cost extractive context compression method that adaptively determines the compression rate based on both query complexity and retrieval quality. Specifically, we first annotate the minimum top-k documents necessary for the RAG system to answer the current query as the compression rate and then construct triplets of the query, retrieved documents, and its compression rate. Then, we use this triplet dataset to train a compression-rate predictor. Experiments on three QA datasets and one conversational Muiti-doc QA dataset show that AdaComp significantly reduces inference costs while maintaining performance nearly identical to uncompressed models, achieving a balance between efficiency and performance. | 翻訳日:2024-09-06 03:06:29 公開日:2024-09-03 |
# GaussianPU: 3D Gaussian Splattingによるカラーポイントクラウドの強化のためのハイブリッド2D-3Dアップサンプリングフレームワーク
GaussianPU: A Hybrid 2D-3D Upsampling Framework for Enhancing Color Point Clouds via 3D Gaussian Splatting ( http://arxiv.org/abs/2409.01581v1 ) ライセンス: Link先を確認 | Zixuan Guo, Yifan Xie, Weijing Xie, Peng Huang, Fei Ma, Fei Richard Yu, | (参考訳) 濃淡色の点雲は視覚的知覚を高め、様々なロボット応用において重要な意味を持つ。
しかし、既存の学習ベースのポイントクラウドアップサンプリング手法は計算資源やバッチ処理戦略によって制限されており、ポイントクラウドを小さなパッチに分割する必要があることが多いため、知覚品質を低下させる歪みが生じる。
この課題に対処するために,ロボット認識のための3Dガウススプラッティング(3DGS)に基づく2D-3Dハイブリッド色点雲サンプリングフレームワーク(GaussianPU)を提案する。
このアプローチでは、3DGSを活用して、ロボットビジョンシステム内の2Dレンダリング画像で3Dポイントクラウドをブリッジする。
デュアルスケールレンダリング画像復元ネットワークは、スパースポイントのレンダリングを3DGSに変換し、精密なロボットカメラのポーズと補間されたスパースポイントの雲と共に3DGSに入力し、密度の高い3Dポイントの雲を再構築する。
我々は,バニラ3DGSの一連の改良を行い,点数を正確に制御し,ロボットシーン理解のためのアップサンプリングされた点雲の品質を大幅に向上させた。
私たちのフレームワークは、NVIDIA GeForce RTX 3090のような1つのコンシューマグレードのGPU上で、ポイントクラウド全体の処理をサポートします。
百万点クラウドデータの生成に関する大規模な実験結果から,本手法の有効性が検証され,着色点クラウドの品質が大幅に向上し,自律ロボットやロボットとロボットの相互作用シナリオにおける大規模点クラウドの応用に有意な可能性が示唆された。
Dense colored point clouds enhance visual perception and are of significant value in various robotic applications. However, existing learning-based point cloud upsampling methods are constrained by computational resources and batch processing strategies, which often require subdividing point clouds into smaller patches, leading to distortions that degrade perceptual quality. To address this challenge, we propose a novel 2D-3D hybrid colored point cloud upsampling framework (GaussianPU) based on 3D Gaussian Splatting (3DGS) for robotic perception. This approach leverages 3DGS to bridge 3D point clouds with their 2D rendered images in robot vision systems. A dual scale rendered image restoration network transforms sparse point cloud renderings into dense representations, which are then input into 3DGS along with precise robot camera poses and interpolated sparse point clouds to reconstruct dense 3D point clouds. We have made a series of enhancements to the vanilla 3DGS, enabling precise control over the number of points and significantly boosting the quality of the upsampled point cloud for robotic scene understanding. Our framework supports processing entire point clouds on a single consumer-grade GPU, such as the NVIDIA GeForce RTX 3090, eliminating the need for segmentation and thus producing high-quality, dense colored point clouds with millions of points for robot navigation and manipulation tasks. Extensive experimental results on generating million-level point cloud data validate the effectiveness of our method, substantially improving the quality of colored point clouds and demonstrating significant potential for applications involving large-scale point clouds in autonomous robotics and human-robot interaction scenarios. | 翻訳日:2024-09-06 03:06:29 公開日:2024-09-03 |
# 大規模視覚言語モデルにおけるアートワークの言語横断的説明に向けて
Towards Cross-Lingual Explanation of Artwork in Large-scale Vision Language Models ( http://arxiv.org/abs/2409.01584v1 ) ライセンス: Link先を確認 | Shintaro Ozaki, Kazuki Hayashi, Yusuke Sakai, Hidetaka Kamigaito, Katsuhiko Hayashi, Taro Watanabe, | (参考訳) 大規模視覚言語モデル(LVLM)の性能が向上するにつれて、複数の言語で対応できるようになり、LVLMによる説明の需要が増大すると予想されている。
しかし、ヴィジュアルエンコーダの事前訓練とヴィジュアルエンコーダによるLLMの統合訓練は、主に英語のトレーニングデータを用いて行われており、英語以外の言語で説明を生成する際に、LVLMがそれらのポテンシャルを完全に扱えるかどうかは不明である。
さらに、機械翻訳を使用したデータセットを作成する多言語QAベンチマークでは、文化的な違いとバイアスがあり、評価タスクとして使用するための問題が残っている。
これらの課題に対処するため、本研究では、機械翻訳に頼ることなく、複数の言語で拡張データセットを作成する。
次に、ニュアンスや国固有のフレーズを考慮したこのデータセットを用いて、LVLMの生成説明能力を評価した。
さらに,資源豊富な英語の授業チューニングが,他言語のパフォーマンスを向上させるかどうかを検討した。
その結果,LVLMは英語以外の言語では英語に比べて性能が悪くなっていることが示唆された。
さらに、LVLMは英語データから学んだ知識を効果的に管理するのに苦労していることが明らかとなった。
As the performance of Large-scale Vision Language Models (LVLMs) improves, they are increasingly capable of responding in multiple languages, and there is an expectation that the demand for explanations generated by LVLMs will grow. However, pre-training of Vision Encoder and the integrated training of LLMs with Vision Encoder are mainly conducted using English training data, leaving it uncertain whether LVLMs can completely handle their potential when generating explanations in languages other than English. In addition, multilingual QA benchmarks that create datasets using machine translation have cultural differences and biases, remaining issues for use as evaluation tasks. To address these challenges, this study created an extended dataset in multiple languages without relying on machine translation. This dataset that takes into account nuances and country-specific phrases was then used to evaluate the generation explanation abilities of LVLMs. Furthermore, this study examined whether Instruction-Tuning in resource-rich English improves performance in other languages. Our findings indicate that LVLMs perform worse in languages other than English compared to English. In addition, it was observed that LVLMs struggle to effectively manage the knowledge learned from English data. | 翻訳日:2024-09-06 03:06:29 公開日:2024-09-03 |
# バッファに基づく連続的フェデレーション学習のためのグラディエント投影
Buffer-based Gradient Projection for Continual Federated Learning ( http://arxiv.org/abs/2409.01585v1 ) ライセンス: Link先を確認 | Shenghong Dai, Jy-yong Sohn, Yicong Chen, S M Iftekharul Alam, Ravikumar Balakrishnan, Suman Banerjee, Nageen Himayat, Kangwook Lee, | (参考訳) CFL(Continuous Federated Learning)は、複数の分散クライアントが継続的データストリームから適応的に学習する現実世界のアプリケーションを実現するために不可欠である。
CFLにおける重要な課題は、新しい情報を学ぶ際に、モデルが以前取得した知識を失う破滅的な忘れを緩和することである。
既存のアプローチは、デバイスストレージ容量の制約とクライアント間のデータ分散の不均一性のために、しばしば困難に直面します。
いくつかのCFLアルゴリズムはこれらの課題に対処しているが、それらはしばしばタスク境界(新しいタスクがいつ始まるかを知ること)の可用性に関する非現実的な仮定に依存している。
これらの制約に対処するため,バッファベースの勾配投影手法を用いたA-GEM法(Chaudhry et al , 2019)のフェデレーションであるFed-A-GEMを導入する。
Fed-A-GEMは、ローカルバッファサンプルと集約バッファ勾配を活用することで破滅的な忘れを軽減し、複数のクライアント間で知識を保持する。
提案手法は既存のCFL技術と組み合わせて,CFLコンテキストにおける性能を向上させる。
標準ベンチマークの実験では、さまざまなシナリオで一貫したパフォーマンス改善が示されています。
例えば、CIFAR-100データセットを用いたタスク増分学習シナリオでは、その精度を最大27%向上させることができる。
私たちのコードはhttps://github.com/shenghongdai/Fed-A-GEM.comで公開されています。
Continual Federated Learning (CFL) is essential for enabling real-world applications where multiple decentralized clients adaptively learn from continuous data streams. A significant challenge in CFL is mitigating catastrophic forgetting, where models lose previously acquired knowledge when learning new information. Existing approaches often face difficulties due to the constraints of device storage capacities and the heterogeneous nature of data distributions among clients. While some CFL algorithms have addressed these challenges, they frequently rely on unrealistic assumptions about the availability of task boundaries (i.e., knowing when new tasks begin). To address these limitations, we introduce Fed-A-GEM, a federated adaptation of the A-GEM method (Chaudhry et al., 2019), which employs a buffer-based gradient projection approach. Fed-A-GEM alleviates catastrophic forgetting by leveraging local buffer samples and aggregated buffer gradients, thus preserving knowledge across multiple clients. Our method is combined with existing CFL techniques, enhancing their performance in the CFL context. Our experiments on standard benchmarks show consistent performance improvements across diverse scenarios. For example, in a task-incremental learning scenario using the CIFAR-100 dataset, our method can increase the accuracy by up to 27%. Our code is available at https://github.com/shenghongdai/Fed-A-GEM. | 翻訳日:2024-09-06 02:53:07 公開日:2024-09-03 |
# Booster: ハームフルな摂動を減らした大規模言語モデルのためのハームフルな微調整
Booster: Tackling Harmful Fine-tuing for Large Language Models via Attenuating Harmful Perturbation ( http://arxiv.org/abs/2409.01586v1 ) ライセンス: Link先を確認 | Tiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu, | (参考訳) Harmful fine-tuning issue \citep{qi2023fine} は、大規模言語モデルの fine-tuning-as-a-service に対して深刻な安全性上の懸念をもたらす。
既存のディフェンス \citep{huang2024vaccine,rosati2024representation} は問題を緩和するために提案されているが、彼らのパフォーマンスはまだ満足には程遠いものであり、問題の根本原因が完全に回復されていない。
本論文では, モデル重量に対する<textit{harmful perturbation>が, 有害な微調整のアライメントの根本原因であることを示す。
有害な摂動の負の影響を軽減するために,Boosterと呼ばれるアライメントステージソリューションを提案する。
技術的には、元々のアライメント損失とともに、アライメントステージの最適化に損失正規化器を付加する。
正規化器は、シミュレーションされた有害な摂動の前後でモデルが有害な損失を減らすことを保証し、その後の微調整リスクを軽減する。
実験結果から, 下流タスクの性能を維持しつつ, 微調整モデルの有害スコアを効果的に低減できることが示唆された。
私たちのコードは \url{https://github.com/git-disl/Booster} で利用可能です。
Harmful fine-tuning issue \citep{qi2023fine} poses serious safety concerns for Large language models' fine-tuning-as-a-service. While existing defenses \citep{huang2024vaccine,rosati2024representation} have been proposed to mitigate the issue, their performances are still far away from satisfactory, and the root cause of the problem has not been fully recovered. For the first time in the literature, we in this paper show that \textit{harmful perturbation} over the model weights should be the root cause of alignment-broken of harmful fine-tuning. In order to attenuate the negative impact of harmful perturbation, we propose an alignment-stage solution, dubbed Booster. Technically, along with the original alignment loss, we append a loss regularizer in the alignment stage's optimization. The regularizer ensures that the model's harmful loss reduction before/after simulated harmful perturbation is attenuated, thereby mitigating the subsequent fine-tuning risk. Empirical results show that Booster can effectively reduce the harmful score of the fine-tuned models while maintaining the performance of downstream tasks. Our code is available at \url{https://github.com/git-disl/Booster}. | 翻訳日:2024-09-06 02:53:07 公開日:2024-09-03 |
# 混合暗号用アレー中間言語
An Array Intermediate Language for Mixed Cryptography ( http://arxiv.org/abs/2409.01587v1 ) ライセンス: Link先を確認 | Vivian Ding, Coşku Acay, Andrew C. Myers, | (参考訳) 本稿では,複数の暗号機構を用いた対話型プログラムの効率的なコード生成を支援するために,新しい配列ベース中間表現であるAIRductを紹介する。
AIRductはViaductコンパイラのIRとして意図されており、セキュアで分散したプログラムを拡張可能な暗号セットで合成することができる。
そのため、AIRductはMPCやZKPなど、様々な暗号化メカニズムをサポートしている。
We introduce AIRduct, a new array-based intermediate representation designed to support generating efficient code for interactive programs employing multiple cryptographic mechanisms. AIRduct is intended as an IR for the Viaduct compiler, which can synthesize secure, distributed programs with an extensible suite of cryptography. Therefore, AIRduct supports an extensible variety of cryptographic mechanisms, including MPC and ZKP. | 翻訳日:2024-09-06 02:53:07 公開日:2024-09-03 |
# 知識インフォームド強化学習による大規模都市施設選定
Large-scale Urban Facility Location Selection with Knowledge-informed Reinforcement Learning ( http://arxiv.org/abs/2409.01588v1 ) ライセンス: Link先を確認 | Hongyuan Su, Yu Zheng, Jingtao Ding, Depeng Jin, Yong Li, | (参考訳) 施設配置問題 (FLP) は、施設のアクセシビリティを最大化するために戦略的に施設を配置することを目的とした古典的な組合せ最適化の課題である。
本稿では,超高速な推論速度でほぼ最適解を生成できる大規模都市FLPの解法に適した強化学習手法を提案する。
我々は,局所探索から本態的なスワップ操作を蒸留し,知識インフォームドグラフニューラルネットワークによって誘導された都市域のグラフ上のエッジをインテリジェントに選択することにより,局所探索の重い計算の必要性を補足する。
地理的条件の異なる4つのアメリカの都市での大規模な実験により、我々の手法は、アクセシビリティ損失が5倍未満の商用解決器に匹敵する性能を達成できる一方で、最大1000倍の速度で表示できることが示されている。
当社のモデルは、https://huggingface.co/spaces/randommmm/MFLPで、オンライン地理空間アプリケーションとしてデプロイしています。
The facility location problem (FLP) is a classical combinatorial optimization challenge aimed at strategically laying out facilities to maximize their accessibility. In this paper, we propose a reinforcement learning method tailored to solve large-scale urban FLP, capable of producing near-optimal solutions at superfast inference speed. We distill the essential swap operation from local search, and simulate it by intelligently selecting edges on a graph of urban regions, guided by a knowledge-informed graph neural network, thus sidestepping the need for heavy computation of local search. Extensive experiments on four US cities with different geospatial conditions demonstrate that our approach can achieve comparable performance to commercial solvers with less than 5\% accessibility loss, while displaying up to 1000 times speedup. We deploy our model as an online geospatial application at https://huggingface.co/spaces/randommmm/MFLP. | 翻訳日:2024-09-06 02:53:07 公開日:2024-09-03 |
# カーマグノンは無症候性光子フォノンスクイーズを補助する
Kerr magnon assisted asymptotic stationary photon-phonon squeezing ( http://arxiv.org/abs/2409.01590v1 ) ライセンス: Link先を確認 | Shi-fan Qi, Jun Jing, | (参考訳) ボソニック2モード圧縮状態は連続変数系におけるパラダイム的絡み合い状態であり、量子情報処理に広く応用されている。
本研究では,ハイブリッドキャビティ・マグノメカニクスシステムにおいて,Kerrマグノンを補助するフォトンフォノンスクイーズプロトコルを提案する。
我々は,光子-フォノン相互作用が強い光子-マグノン相互作用と光子モードの駆動周波数を正確に変調することで,光子-フォノンのスクイーズを効果的に行うハミルトニアンを構築した。
実効ハミルトニアンは、系のリウビリアン超作用素の対角化に関する魅力的な方法によって確認することができる。
この方法は、システム全体のエネルギーダイアグラムにおけるレベルの交差を避けるよりも、レベルのアトラクションに対処することができる。
実効的なハミルトニアン方程式と量子ランゲヴィン方程式を用いて、スクイーズ生成の動的過程に対する厳密な理論解を提供する。
この結果から, 系の共分散行列が時間とともに変化しても, 浮動小数点演算子を最適化することにより, 漸近的定常浮動を得ることが可能であることが示唆された。
このスクイーズレベルは、安定条件下での最大値を超えることができる。
さらに, マグノンのKerr非線形性は, スクイーズ生成をさらに促進できることを示した。
我々の研究は、間接結合で2つのガウスモードを絡める圧縮状態を生成する拡張可能なフレームワークを提供する。
Bosonic two-mode squeezed states are paradigmatic entangled states in continuous variable systems, which have broad applications in quantum information processing. In this work, we propose a photon-phonon squeezing protocol assisted by a Kerr magnon within a hybrid cavity magnomechanical system. We construct an effective Hamiltonian that accounts for photon-phonon squeezing through strong photon-magnon interaction and precise modulation over the driving frequency on the photon mode. The effective Hamiltonian can be confirmed by a fascinating method about the diagonalization of the system's Liouvilian superoperator. This method can address the level attractions rather than avoided level crossings in the energy diagram of the whole system. With the effective Hamiltonian and quantum Langevin equation, we provide a rigorous theoretical solution for the dynamical process of squeezing generation. Our finding indicates that asymptotic stationary squeezing can be obtained by optimizing the squeezing quadrature operator, even when the covariance matrix of the system still varies with time. This squeezing level can exceed the maximum value under stable conditions. Moreover, our analysis also reveals that the Kerr nonlinearity of the magnon can further promote the squeezing generation. Our work provides an extendable framework for generating squeezed states that entangle two Gaussian modes with indirect coupling. | 翻訳日:2024-09-06 02:53:07 公開日:2024-09-03 |
# 動的運動合成:マスクオーディオテクスチャ付き時空間変圧器
Dynamic Motion Synthesis: Masked Audio-Text Conditioned Spatio-Temporal Transformers ( http://arxiv.org/abs/2409.01591v1 ) ライセンス: Link先を確認 | Sohan Anisetty, James Hays, | (参考訳) 本研究は,複数のモーダル性,特にテキストおよび音声入力を同時に条件付けした全身動作シーケンスを生成するために設計された,新しい動き生成フレームワークを提案する。
動作離散化のためのベクトル量子変分自動符号化(VQVAE)と、効率的なトークン予測のための双方向マスケッド言語モデリング(MLM)戦略を活用し、本手法は、生成した動きの処理効率とコヒーレンスを向上させる。
空間的注意機構とトークン批評家を統合することで、生成した動きの一貫性と自然性を確保することができる。
このフレームワークは運動生成の可能性を拡張し、既存のアプローチの限界に対処し、マルチモーダルモーション合成の道を開く。
Our research presents a novel motion generation framework designed to produce whole-body motion sequences conditioned on multiple modalities simultaneously, specifically text and audio inputs. Leveraging Vector Quantized Variational Autoencoders (VQVAEs) for motion discretization and a bidirectional Masked Language Modeling (MLM) strategy for efficient token prediction, our approach achieves improved processing efficiency and coherence in the generated motions. By integrating spatial attention mechanisms and a token critic we ensure consistency and naturalness in the generated motions. This framework expands the possibilities of motion generation, addressing the limitations of existing approaches and opening avenues for multimodal motion synthesis. | 翻訳日:2024-09-06 02:53:07 公開日:2024-09-03 |
# 古典的カーネル法による時間外順序相関器の学習
Learning out-of-time-ordered correlators with classical kernel methods ( http://arxiv.org/abs/2409.01592v1 ) ライセンス: Link先を確認 | John Tanner, Jason Pye, Jingbo Wang, | (参考訳) Out-of-Time Ordered Correlator (OTOC) は、量子系における情報の揺らぎを調べるために広く使われている。
しかし、OTOCを古典的なコンピュータで直接計算するのは現実的ではないことが多い。
これは、指数的にスケールする計算コストとシステムサイズを必要とする量子多体系の力学をシミュレートする必要があるためである。
同様に、量子コンピュータ(QC)による力学の正確なシミュレーションは、一般的にフォールトトレラントQCを必要とする。
したがって、OTOCと関連する量の計算には別の方法が必要である。
本研究では、凝縮物質物理学に関心を持つ量子系を記述する4つのパラメータ化されたハミルトン系について検討する。
各集合に対して、古典的なカーネル手法が、ハミルトニアンパラメータの関数として、XZ-OTOCと特定のOTOCの和を正確に学習できるかどうかを検討する。
我々は、行列積演算子を用いて最大40量子ビットの量子多体系をシミュレートする効率的な数値アルゴリズムを用いてラベル付きデータを生成する。
このデータを用いて、我々は様々な標準カーネルマシンを訓練し、最高のカーネルがテストセット上で常に高い判定係数(R^2$)を達成することを観察する。
このことは、適度なトレーニングデータを供給した古典的カーネルが、様々な量子多体系に対して、OTOCと関連する量の密接かつ効率的に近似するために使用できることを示している。
Out-of-Time Ordered Correlators (OTOCs) are widely used to investigate information scrambling in quantum systems. However, directly computing OTOCs with classical computers is often impractical. This is due to the need to simulate the dynamics of quantum many-body systems, which entails exponentially-scaling computational costs with system size. Similarly, exact simulation of the dynamics with a quantum computer (QC) will generally require a fault-tolerant QC, which is currently beyond technological capabilities. Therefore, alternative approaches are needed for computing OTOCs and related quantities. In this study, we explore four parameterised sets of Hamiltonians describing quantum systems of interest in condensed matter physics. For each set, we investigate whether classical kernel methods can accurately learn the XZ-OTOC as well as a particular sum of OTOCs, as functions of the Hamiltonian parameters. We frame the problem as a regression task, generating labelled data via an efficient numerical algorithm that utilises matrix product operators to simulate quantum many-body systems, with up to 40 qubits. Using this data, we train a variety of standard kernel machines and observe that the best kernels consistently achieve a high coefficient of determination ($R^2$) on the testing sets, typically between 0.9 and 0.99, and almost always exceeding 0.8. This demonstrates that classical kernels supplied with a moderate amount of training data can be used to closely and efficiently approximate OTOCs and related quantities for a diverse range of quantum many-body systems. | 翻訳日:2024-09-06 02:53:07 公開日:2024-09-03 |
# DiVE: 制御機能強化したDiTベースのビデオ生成
DiVE: DiT-based Video Generation with Enhanced Control ( http://arxiv.org/abs/2409.01595v1 ) ライセンス: Link先を確認 | Junpeng Jiang, Gangyi Hong, Lijun Zhou, Enhui Ma, Hengtong Hu, Xia Zhou, Jie Xiang, Fan Liu, Kaicheng Yu, Haiyang Sun, Kun Zhan, Peng Jia, Miao Zhang, | (参考訳) 自動運転のシナリオで高忠実で時間的に一貫したビデオを生成することは、例えばコーナーケースで問題のある操作など、大きな課題に直面している。
ディフュージョントランスフォーマー(Diffusion Transformers, DiT)上に構築されたモデルに対処するための最近のビデオ生成作業が提案されているが、マルチビュービデオ生成シナリオの可能性を探究する作業はいまだに欠落している。
特に,時間的・多視点一貫したビデオを生成するために設計された最初のDiTベースのフレームワークを提案する。
具体的には、パラメータフリーな空間ビューインフレーション型アテンション機構を利用して、クロスビューの一貫性を保証する。
この利点を実証するため, nuScenesデータセットの質的比較について, 特に難易度の高いコーナーケースで詳細に検討した。
要約すると,困難条件下での長大かつ制御可能な,高度に一貫した映像作成における提案手法の有効性が証明された。
Generating high-fidelity, temporally consistent videos in autonomous driving scenarios faces a significant challenge, e.g. problematic maneuvers in corner cases. Despite recent video generation works are proposed to tackcle the mentioned problem, i.e. models built on top of Diffusion Transformers (DiT), works are still missing which are targeted on exploring the potential for multi-view videos generation scenarios. Noticeably, we propose the first DiT-based framework specifically designed for generating temporally and multi-view consistent videos which precisely match the given bird's-eye view layouts control. Specifically, the proposed framework leverages a parameter-free spatial view-inflated attention mechanism to guarantee the cross-view consistency, where joint cross-attention modules and ControlNet-Transformer are integrated to further improve the precision of control. To demonstrate our advantages, we extensively investigate the qualitative comparisons on nuScenes dataset, particularly in some most challenging corner cases. In summary, the effectiveness of our proposed method in producing long, controllable, and highly consistent videos under difficult conditions is proven to be effective. | 翻訳日:2024-09-06 02:53:07 公開日:2024-09-03 |
# 逆数生成モデルを用いた後期乳腺DCE-MRI生成のための時間強度認識パイプライン
A Time-Intensity Aware Pipeline for Generating Late-Stage Breast DCE-MRI using Generative Adversarial Models ( http://arxiv.org/abs/2409.01596v1 ) ライセンス: Link先を確認 | Ruben D. Fonnegra, Maria Liliana Hernández, Juan C. Caicedo, Gloria M. Díaz, | (参考訳) 乳房MRIでは良性腫瘍と悪性腫瘍の鑑別にコントラスト・エンハンスメントパターン解析が重要である。
しかし、コントラストが強化された画像の取得には時間がかかり、非常にコストがかかる。
身体的獲得の代替として,本論文では,早期の乳房MRIから,正確な長期(後期)造影MRIを作成するための包括的パイプラインを提案する。
提案手法は,合成画像全体の視覚特性を維持しつつ,拡張領域におけるコントラストエージェントパターンの保存に重点を置いている。
そこで, 組織中のコントラスト剤 (CA) の生物学的挙動をタイムインテンシティ(TI)エンハンスメント曲線に反映した新たな損失関数を提案し, 画素アテンションに基づく生成モデルを最適化した。
また,従来の正規化法や標準化法とは異なり,複数のタイムスタンプで画像列間のコントラスト強調パターンを維持できる新しい正規化法を開発した。
これにより、従来のアプローチとは異なり、画像前処理後のCAパターンの出現が保証される。
さらに、合成画像の臨床的品質を客観的に評価するために、得られた合成画像の強化領域のTI曲線の差を測定するために、2つの指標も導入した。
実験の結果,提案手法は画像全体の空間的特徴を維持しつつ,コントラスト領域の診断品質を著しく上回る画像を生成することがわかった。
この結果から, 臨床シナリオにおける深層学習による合成遅延強調画像の有用性が示唆された。
Contrast-enhancement pattern analysis is critical in breast magnetic resonance imaging (MRI) to distinguish benign from probably malignant tumors. However, contrast-enhanced image acquisitions are time-consuming and very expensive. As an alternative to physical acquisition, this paper proposes a comprehensive pipeline for the generation of accurate long-term (late) contrast-enhanced breast MRI from the early counterpart. The proposed strategy focuses on preserving the contrast agent pattern in the enhanced regions while maintaining visual properties in the entire synthesized images. To that end, a novel loss function that leverages the biological behavior of contrast agent (CA) in tissue, given by the Time-Intensity (TI) enhancement curve, is proposed to optimize a pixel-attention based generative model. In addition, unlike traditional normalization and standardization methods, we developed a new normalization strategy that maintains the contrast enhancement pattern across the image sequences at multiple timestamps. This ensures the prevalence of the CA pattern after image preprocessing, unlike conventional approaches. Furthermore, in order to objectively evaluate the clinical quality of the synthesized images, two metrics are also introduced to measure the differences between the TI curves of enhanced regions of the acquired and synthesized images. The experimental results showed that the proposed strategy generates images that significantly outperform diagnostic quality in contrast-enhanced regions while maintaining the spatial features of the entire image. This results suggest a potential use of synthetic late enhanced images generated via deep learning in clinical scenarios. | 翻訳日:2024-09-06 02:53:07 公開日:2024-09-03 |
# MCBA:適合性と多様性を考慮した複合サービスレコメンデーションのためのマトロイド制約に基づくアプローチ
MCBA: A Matroid Constraint-Based Approach for Composite Service Recommendation Considering Compatibility and Diversity ( http://arxiv.org/abs/2409.01600v1 ) ライセンス: Link先を確認 | Ying Sun, Xiao Wang, Hanchuan Xu, Zhongjie Wang, | (参考訳) マイクロサービスの人気が高まり、多くの企業がリモート呼び出しのためのWeb APIとしてビジネスプロセスをカプセル化している。
これらの軽量Web APIは、マッシュアップ開発者に、スクラッチから始めることなく複雑な機能を実現する効率的な方法を提供する。
しかし、これはまた、多様性を制限する人気のあるAPIに対する開発者の検索結果の集中、API互換性の検証の難しさといった課題も示している。
多数の候補APIからマッシュアップ機能要件を満たす、互換性のあるAPIの多様な構成を推奨するためには、方法が必要である。
本稿では,適合性に着目したAPIコンポジション発見と多様性を重視したトップkコンポジションレコメンデーションという,複合サービスレコメンデーションのためのMatroid Constraint-Based Approach(MCBA)を紹介する。
第一段階では、API合成問題は最小グループスタイナーツリー(MGST)問題として定式化され、その後「圧縮解法」アルゴリズムによって対処される。
第2段階では、分割マトロイド制約(MMR-PMC)の下での最大マージナル関連法を用いて、推薦の多様性を確保する。
実世界のデータセットに関する総合的な実験によると、MCBAは精度、互換性、多様性、効率の点で最先端のいくつかの手法を超越している。
With the growing popularity of microservices, many companies are encapsulating their business processes as Web APIs for remote invocation. These lightweight Web APIs offer mashup developers an efficient way to achieve complex functionalities without starting from scratch. However, this also presents challenges, such as the concentration of developers'search results on popular APIs limiting diversity, and difficulties in verifying API compatibility. A method is needed to recommend diverse compositions of compatible APIs that fulfill mashup functional requirements from a large pool of candidate APIs. To tackle this issue, this paper introduces a Matroid Constraint-Based Approach (MCBA) for composite service recommendation, consisting of two stages: API composition discovery focusing on compatibility and top-k composition recommendation focusing on diversity. In the first stage, the API composition issue is formulated as a minimal group Steiner tree (MGST) problem, subsequently addressed by a "compression-solution" algorithm. In the second stage, a Maximum Marginal Relevance method under partition matroid constraints (MMR-PMC) is employed to ensure recommendation diversity. Comprehensive experiments on the real-world dataset show that MCBA surpasses several state-of-the-art methods in terms of accuracy, compatibility, diversity, and efficiency. | 翻訳日:2024-09-06 02:53:07 公開日:2024-09-03 |
# ファンデルワールス物質の単一核スピン検出と制御
Single nuclear spin detection and control in a van der Waals material ( http://arxiv.org/abs/2409.01601v1 ) ライセンス: Link先を確認 | Xingyu Gao, Sumukh Vaidya, Kejun Li, Saakshi Dikshit, Shimin Zhang, Peng Ju, Kunhong Shen, Yuanbin Jin, Yuan Ping, Tongcang Li, | (参考訳) 固体の光学活性スピン欠陥は量子センシングと量子ネットワークの候補となっている。
近年,六方晶窒化ホウ素 (hBN) の層状ファンデルワールス (vdW) 材料に単一スピン欠陥が発見された。
二次元構造のため、hBNはスピン欠陥を3次元結晶よりもターゲット試料に近づけることを可能にし、単一の分子の核磁気共鳴(NMR)を含む原子スケールの量子センシングに最適である。
しかし、これらの欠陥の化学構造は不明であり、hBNスピン欠陥を持つ1つの核スピンが検出されている。
本研究では、$^{13}$Cイオン注入法を用いてhBNに単一スピン欠陥を発生させ、3種類の異なる欠陥を同定した。
我々は、1つのhBNスピン欠陥の中で、$S=1$と$S=1/2$スピン状態の両方を観察し、近くの$^{13}$C核スピンと強い超微細相互作用を示す$S=1/2$状態のみを示した。
VdW材料における原子スケールNMRと個々の核スピンのコヒーレント制御を初めて実証した。
実験結果を密度汎関数理論計算と比較することにより,これらのスピン欠陥の化学構造を提案する。
我々の研究は、hBNにおける単一スピン欠陥の理解を深め、核スピンを量子記憶としてhBNスピン欠陥を用いて量子センシングを強化する経路を提供する。
Optically active spin defects in solids are leading candidates for quantum sensing and quantum networking. Recently, single spin defects were discovered in hexagonal boron nitride (hBN), a layered van der Waals (vdW) material. Due to its two-dimensional structure, hBN allows spin defects to be positioned closer to target samples than in three-dimensional crystals, making it ideal for atomic-scale quantum sensing, including nuclear magnetic resonance (NMR) of single molecules. However, the chemical structures of these defects remain unknown, and detecting a single nuclear spin with an hBN spin defect has been elusive. In this study, we created single spin defects in hBN using $^{13}$C ion implantation and identified three distinct defect types. We observed both $S=1$ and $S=1/2$ spin states within a single hBN spin defect, with only the $S=1/2$ states showing strong hyperfine interactions with nearby $^{13}$C nuclear spins. For the first time, we demonstrated atomic-scale NMR and coherent control of individual nuclear spins in a vdW material. By comparing experimental results with density-functional theory calculations, we propose chemical structures for these spin defects. Our work advances the understanding of single spin defects in hBN and provides a pathway to enhance quantum sensing using hBN spin defects with nuclear spins as quantum memories. | 翻訳日:2024-09-06 02:53:07 公開日:2024-09-03 |
# DAPONet:リアルタイム道路被害検知のための二重注意と部分過度ネットワーク
DAPONet: A Dual Attention and Partially Overparameterized Network for Real-Time Road Damage Detection ( http://arxiv.org/abs/2409.01604v1 ) ライセンス: Link先を確認 | Weichao Pan, Jiaju Kang, Xu Wang, Zhihao Chen, Yiyuan Ge, | (参考訳) 現行の道路損傷検出方法は、手動検査やセンサー搭載車両に依存しており、非効率であり、カバー範囲が限られており、特に小さな損傷に対して不正確な場合が多いため、遅延や安全上の危険が生じる。
これらの問題に対処し、ストリートビュー画像データ(SVRDD)を用いたリアルタイム道路損傷検出を強化するために、DAPONetという3つの重要なモジュールを組み込んだモデルを提案する。
DAPONetは、SVRDDデータセット上で70.1%のmAP50を達成し、YOLOv10nを10.4%上回り、パラメータを1.6M、FLOPを1.7Gに減らし、それぞれ41%、80%削減した。
MS COCO2017 valデータセットでは、DAPONetはmAP50-95が33.4%、効率の良いDet-D1より0.8%高く、パラメータとFLOPの両方が74%減少している。
Current road damage detection methods, relying on manual inspections or sensor-mounted vehicles, are inefficient, limited in coverage, and often inaccurate, especially for minor damages, leading to delays and safety hazards. To address these issues and enhance real-time road damage detection using street view image data (SVRDD), we propose DAPONet, a model incorporating three key modules: a dual attention mechanism combining global and local attention, a multi-scale partial over-parameterization module, and an efficient downsampling module. DAPONet achieves a mAP50 of 70.1% on the SVRDD dataset, outperforming YOLOv10n by 10.4%, while reducing parameters to 1.6M and FLOPs to 1.7G, representing reductions of 41% and 80%, respectively. On the MS COCO2017 val dataset, DAPONet achieves an mAP50-95 of 33.4%, 0.8% higher than EfficientDet-D1, with a 74% reduction in both parameters and FLOPs. | 翻訳日:2024-09-06 02:53:07 公開日:2024-09-03 |
# レーザ: パラメータ効率の良いLLMバイチューニングによる協調情報を用いたシーケンスレコメンデーション
Laser: Parameter-Efficient LLM Bi-Tuning for Sequential Recommendation with Collaborative Information ( http://arxiv.org/abs/2409.01605v1 ) ライセンス: Link先を確認 | Xinyu Zhang, Linmei Hu, Luhao Zhang, Dandan Song, Heyan Huang, Liqiang Nie, | (参考訳) 時系列レコメンデーションシステムは、ユーザの好みを過去のインタラクションと区別し、ターゲットとするレコメンデーションを促進するために不可欠である。
近年のLarge Language Models (LLM) を用いた革新は、アイテムセマンティクスをエンコードすることで分野を前進させてきたが、かなりのパラメータチューニングが必要であり、リソース要求であることが多い。
さらに、これらの研究は、異なるタイプのユーザの多様な特性を考慮せず、レコメンデーションの精度を低下させる。
本稿では,協調情報を用いた逐次レコメンデーションのためのパラメータ効率の高い大規模言語モデルバイチューニングフレームワーク(Laser)を提案する。
具体的には、Bi-Tuningは、トレーニング可能な仮想トークンを入力シーケンスのプレフィックスと接尾辞の両方に挿入し、LLMパラメータを凍結することにより、シーケンシャルレコメンデーションのためにLLMを最適化する。
我々のレーザーでは,プレフィックスを用いてユーザと協調的な情報を取り込み,LLMをレコメンデーションタスクに適応させ,サフィックスは言語空間からレコメンデーションスペースへのLLMの出力埋め込みをリコメンデーション項目レコメンデーションスペースに変換する。
さらに、プレフィックスを介して協調情報を統合する際に、様々な種類のユーザの特徴を捉えるために、M-Formerを導入する。M-Formerは、軽量なMoEベースのクエリ変換器で、クエリエキスパートの集合を用いて、凍結IDベースのシーケンシャルレコメンダシステムによって符号化された多様なユーザ固有の協調情報を統合し、レコメンデーションの精度を大幅に向上する。
実世界のデータセットに関する大規模な実験は、レーザーが効果的なレコメンデータシステムにパラメータ効率よくLLMを適用できることを示し、最先端の手法を大幅に上回っている。
Sequential recommender systems are essential for discerning user preferences from historical interactions and facilitating targeted recommendations. Recent innovations employing Large Language Models (LLMs) have advanced the field by encoding item semantics, yet they often necessitate substantial parameter tuning and are resource-demanding. Moreover, these works fails to consider the diverse characteristics of different types of users and thus diminishes the recommendation accuracy. In this paper, we propose a parameter-efficient Large Language Model Bi-Tuning framework for sequential recommendation with collaborative information (Laser). Specifically, Bi-Tuning works by inserting trainable virtual tokens at both the prefix and suffix of the input sequence and freezing the LLM parameters, thus optimizing the LLM for the sequential recommendation. In our Laser, the prefix is utilized to incorporate user-item collaborative information and adapt the LLM to the recommendation task, while the suffix converts the output embeddings of the LLM from the language space to the recommendation space for the follow-up item recommendation. Furthermore, to capture the characteristics of different types of users when integrating the collaborative information via the prefix, we introduce M-Former, a lightweight MoE-based querying transformer that uses a set of query experts to integrate diverse user-specific collaborative information encoded by frozen ID-based sequential recommender systems, significantly improving the accuracy of recommendations. Extensive experiments on real-world datasets demonstrate that Laser can parameter-efficiently adapt LLMs to effective recommender systems, significantly outperforming state-of-the-art methods. | 翻訳日:2024-09-06 02:53:07 公開日:2024-09-03 |
# 3次元構造設計問題に対する主成分分析に基づくデータ駆動トポロジー設計
Data-driven topology design based on principal component analysis for 3D structural design problems ( http://arxiv.org/abs/2409.01607v1 ) ライセンス: Link先を確認 | Jun Yang, Kentaro Yaji, Shintaro Yamasaki, | (参考訳) トポロジー最適化は、工学的課題に対処するために広く利用される構造設計手法である。
しかし、感度に基づく位相最適化手法は、強い非線形性によって特徴づけられる最適化問題を解くのに苦労する。
データ駆動トポロジー設計 (DDTD) 手法は, 感度のない性質と高容量な生成モデルを活用することで, この問題に対する効果的な解決法であると考えられる。
それにもかかわらず、複雑な構造を正確に特徴づけるためには、高い自由度を維持しながら入力サイズが閾値を超えると、深層生成モデルのトレーニングの有効性は低下する。
両者の対立を解決するために,主成分分析(PCA)に基づくDDTDを提案する。
その中核となる考え方は、PCA計算から得られた主成分スコア行列を用いて、深層生成モデルの直接学習を材料分布に置き換え、復元過程を通じて新たな特徴を持つ材料分布を得ることである。
提案したPCAベースのDDTDを3次元構造力学における最大応力最小化問題に適用し,3次元構造設計問題に対処できないDDTDが直面する課題に効果的に対処できることを実証する。
提案したPCAベースのDDTDの有効性と実用性を示すために,種々の実験を行った。
Topology optimization is a structural design methodology widely utilized to address engineering challenges. However, sensitivity-based topology optimization methods struggle to solve optimization problems characterized by strong non-linearity. Leveraging the sensitivity-free nature and high capacity of deep generative models, data-driven topology design (DDTD) methodology is considered an effective solution to this problem. Despite this, the training effectiveness of deep generative models diminishes when input size exceeds a threshold while maintaining high degrees of freedom is crucial for accurately characterizing complex structures. To resolve the conflict between the both, we propose DDTD based on principal component analysis (PCA). Its core idea is to replace the direct training of deep generative models with material distributions by using a principal component score matrix obtained from PCA computation and to obtain the generated material distributions with new features through the restoration process. We apply the proposed PCA-based DDTD to the problem of minimizing the maximum stress in 3D structural mechanics and demonstrate it can effectively address the current challenges faced by DDTD that fail to handle 3D structural design problems. Various experiments are conducted to demonstrate the effectiveness and practicability of the proposed PCA-based DDTD. | 翻訳日:2024-09-06 02:53:07 公開日:2024-09-03 |
# EDCSSM:畳み込み状態空間モデルによるエッジ検出
EDCSSM: Edge Detection with Convolutional State Space Model ( http://arxiv.org/abs/2409.01609v1 ) ライセンス: Link先を確認 | Qinghui Hong, Haoyou Jiang, Pingdan Xiao, Sichun Du, Tao Li, | (参考訳) 画像のエッジ検出は、コンピュータグラフィックスにおける多くの複雑なタスクの基礎となっている。
多層畳み込みとプールアーキテクチャによる特徴損失のため、学習ベースのエッジ検出モデルは、しばしば厚みのあるエッジを生成し、画像内の小さなオブジェクトのエッジを検出するのに苦労する。
本稿では,状態空間モデルに着想を得て,上記の問題に効果的に対処するエッジ検出アルゴリズムを提案する。
提案アルゴリズムは、最小のダウンサンプリングプロセスでデュアルインプットチャネルから画像の状態空間変数を取得し、これらの状態変数をリアルタイム学習と画像テキストの記憶に利用する。
さらに、偽エッジをフィルタリングしながら正確なエッジを達成するために、二項エッジマップを扱うために、風浸食と呼ばれる後処理アルゴリズムが設計された。
提案アルゴリズムの処理速度をさらに向上するため,提案アルゴリズムの最も計算集約的な部分に対して並列計算回路を設計し,計算速度と効率を大幅に向上させた。
実験結果から,提案アルゴリズムは細いエッジの局所化を正確に達成し,様々な種類の画像に対してノイズ抑圧機能を示すことがわかった。
並列計算回路では、処理速度を達成するアルゴリズムは5K画像上で30FPSを超える。
Edge detection in images is the foundation of many complex tasks in computer graphics. Due to the feature loss caused by multi-layer convolution and pooling architectures, learning-based edge detection models often produce thick edges and struggle to detect the edges of small objects in images. Inspired by state space models, this paper presents an edge detection algorithm which effectively addresses the aforementioned issues. The presented algorithm obtains state space variables of the image from dual-input channels with minimal down-sampling processes and utilizes these state variables for real-time learning and memorization of image text. Additionally, to achieve precise edges while filtering out false edges, a post-processing algorithm called wind erosion has been designed to handle the binary edge map. To further enhance the processing speed of the algorithm, we have designed parallel computing circuits for the most computationally intensive parts of presented algorithm, significantly improving computational speed and efficiency. Experimental results demonstrate that the proposed algorithm achieves precise thin edge localization and exhibits noise suppression capabilities across various types of images. With the parallel computing circuits, the algorithm to achieve processing speeds exceeds 30 FPS on 5K images. | 翻訳日:2024-09-06 02:53:07 公開日:2024-09-03 |
# 分解モデル:一般統合勾配(GIG)を用いた画像モデルの機械論的解釈可能性
Decompose the model: Mechanistic interpretability in image models with Generalized Integrated Gradients (GIG) ( http://arxiv.org/abs/2409.01610v1 ) ライセンス: Link先を確認 | Yearim Kim, Sangyu Han, Sangbum Han, Nojun Kwak, | (参考訳) 言語モデルにおけるeXplainable AI(XAI)の分野において、個々の決定の局所的な説明から、高レベルの概念によるグローバルな説明への進歩は、正確な操作をデコードすることを目的とした機械的解釈可能性の基礎を築いた。
しかし、既存の手法が主にクラス固有の解釈に焦点を当てているイメージモデルでは、このパラダイムは十分に研究されていない。
本稿では,すべての中間層を経由した入力から,データセット全体の最終的な出力まで,経路全体を体系的にトレースする手法を提案する。
本稿では,PFV(Pointwise Feature Vectors)とERF(Effective Receptive Fields)を用いて,モデル埋め込みを解釈可能な概念ベクトルに分解する。
そして、一般化統合勾配(GIG)を用いて概念ベクトル間の関係を計算し、モデル行動の包括的、データセットワイドな解析を可能にする。
定性評価と定量的評価の両方において,概念抽出と概念属性の方法を検証する。
我々のアプローチは、画像モデルにおける意味的重要性の理解を前進させ、その操作力学の全体像を提供する。
In the field of eXplainable AI (XAI) in language models, the progression from local explanations of individual decisions to global explanations with high-level concepts has laid the groundwork for mechanistic interpretability, which aims to decode the exact operations. However, this paradigm has not been adequately explored in image models, where existing methods have primarily focused on class-specific interpretations. This paper introduces a novel approach to systematically trace the entire pathway from input through all intermediate layers to the final output within the whole dataset. We utilize Pointwise Feature Vectors (PFVs) and Effective Receptive Fields (ERFs) to decompose model embeddings into interpretable Concept Vectors. Then, we calculate the relevance between concept vectors with our Generalized Integrated Gradients (GIG), enabling a comprehensive, dataset-wide analysis of model behavior. We validate our method of concept extraction and concept attribution in both qualitative and quantitative evaluations. Our approach advances the understanding of semantic significance within image models, offering a holistic view of their operational mechanics. | 翻訳日:2024-09-06 02:43:06 公開日:2024-09-03 |
# 語彙最適化に基づく非単調な基準付き多基準ソートのための代表モデル学習
Lexicographic optimization-based approaches to learning a representative model for multi-criteria sorting with non-monotonic criteria ( http://arxiv.org/abs/2409.01612v1 ) ライセンス: Link先を確認 | Zhen Zhang, Zhuolin Li, Wenyu Yu, | (参考訳) 多条件ソート (MCS) 問題において, 選好不合理性の観点から, 値関数に基づく代表モデルの導出が目覚ましい話題となっている。
注目すべき観察は、MCS問題の代表的なモデルを学ぶための既存の多くのアプローチは、伝統的に基準の単調性を前提としており、現実のMCSのシナリオに見られる複雑さと必ずしも一致しないかもしれないことである。
そこで本稿では,閾値に基づく値駆動ソート手法の統合により,MCS問題の代表モデルと非単調な基準を学習する手法を提案する。
そのため、まずいくつかの変換関数を定義し、限界値と圏閾値を UTA のような関数空間にマッピングする。
次に,MCS問題における非単調な基準をモデル化するための制約セットを構築し,意思決定者の代入事例選好情報の整合性を確認する最適化モデルを構築した。
モデルの複雑さと識別力を同時に考慮し、非単調な基準を持つMCS問題の代表モデルを作成するために、2つの異なる語彙最適化に基づくアプローチを開発した。
最終的には、実証的な例を示し、提案手法の有効性と妥当性を詳述する包括的なシミュレーション実験を行う。
Deriving a representative model using value function-based methods from the perspective of preference disaggregation has emerged as a prominent and growing topic in multi-criteria sorting (MCS) problems. A noteworthy observation is that many existing approaches to learning a representative model for MCS problems traditionally assume the monotonicity of criteria, which may not always align with the complexities found in real-world MCS scenarios. Consequently, this paper proposes some approaches to learning a representative model for MCS problems with non-monotonic criteria through the integration of the threshold-based value-driven sorting procedure. To do so, we first define some transformation functions to map the marginal values and category thresholds into a UTA-like functional space. Subsequently, we construct constraint sets to model non-monotonic criteria in MCS problems and develop optimization models to check and rectify the inconsistency of the decision maker's assignment example preference information. By simultaneously considering the complexity and discriminative power of the models, two distinct lexicographic optimization-based approaches are developed to derive a representative model for MCS problems with non-monotonic criteria. Eventually, we offer an illustrative example and conduct comprehensive simulation experiments to elaborate the feasibility and validity of the proposed approaches. | 翻訳日:2024-09-06 02:43:06 公開日:2024-09-03 |
# PoSブロックチェーンを用いた分散ディープラーニングを用いた追跡データメッセージ(TDM)のオンチェーン検証
On-chain Validation of Tracking Data Messages (TDM) Using Distributed Deep Learning on a Proof of Stake (PoS) Blockchain ( http://arxiv.org/abs/2409.01614v1 ) ライセンス: Link先を確認 | Yasir Latif, Anirban Chowdhury, Samya Bagchi, | (参考訳) 居住空間オブジェクト(RSOs)の信頼できない追跡は、宇宙状況認識(SSA)、特に悪い状況下では不可欠である。
宇宙の安全と安全を確保するため、透明なSSAの重要性は過大評価できない。
RSO位置情報の操作が容易な時代には、武器として使用されるRSOのリスクが高まる。
Tracking Data Message (TDM) は、RSO観測を放送するための標準化されたフォーマットである。
しかし、多様なセンサーから観測される様々な品質は、SSAの信頼性に課題をもたらす。
多くの国が宇宙資産を運用しているが、SSAの能力は比較的少ないため、データの正確性と信頼性を確保することが重要である。
現在の慣行では、送信側に対する完全な信頼を前提としており、SSAの能力はTDMの偽造のような敵の行動に弱いままである。
この研究は、ブロックチェーン上のディープラーニングを使用して、TDM検証と検証のための信頼性のないメカニズムを導入している。
ブロックチェーンの信頼性のない性質を活用することで、私たちのアプローチは中央の権威の必要性を排除し、コンセンサスベースの真実を確立します。
我々は、SGP4のような従来の手法よりも優れた、最先端のトランスフォーマーベースの軌道プロパゲータを提案し、単一のRSOに対する複数の観測の相互検証を可能にした。
このディープラーニングベースのトランスフォーマーモデルはブロックチェーン上に分散することが可能で、関係者が分散ディープラーニングモデルの一部を含むノードをホストすることができる。
当社のシステムは,PoS(Proof of Stake)ブロックチェーン内の分散オブザーバとバリデータで構成される。
オブザーバがTDMデータをコントリビュートして、誠実さを保証する一方で、バリデータが伝搬とバリデーションのアルゴリズムを実行する。
このシステムは、検証済みのTDMに貢献し、検証不能なデータを提出した者に罰を与える。
Trustless tracking of Resident Space Objects (RSOs) is crucial for Space Situational Awareness (SSA), especially during adverse situations. The importance of transparent SSA cannot be overstated, as it is vital for ensuring space safety and security. In an era where RSO location information can be easily manipulated, the risk of RSOs being used as weapons is a growing concern. The Tracking Data Message (TDM) is a standardized format for broadcasting RSO observations. However, the varying quality of observations from diverse sensors poses challenges to SSA reliability. While many countries operate space assets, relatively few have SSA capabilities, making it crucial to ensure the accuracy and reliability of the data. Current practices assume complete trust in the transmitting party, leaving SSA capabilities vulnerable to adversarial actions such as spoofing TDMs. This work introduces a trustless mechanism for TDM validation and verification using deep learning over blockchain. By leveraging the trustless nature of blockchain, our approach eliminates the need for a central authority, establishing consensus-based truth. We propose a state-of-the-art, transformer-based orbit propagator that outperforms traditional methods like SGP4, enabling cross-validation of multiple observations for a single RSO. This deep learning-based transformer model can be distributed over a blockchain, allowing interested parties to host a node that contains a part of the distributed deep learning model. Our system comprises decentralised observers and validators within a Proof of Stake (PoS) blockchain. Observers contribute TDM data along with a stake to ensure honesty, while validators run the propagation and validation algorithms. The system rewards observers for contributing verified TDMs and penalizes those submitting unverifiable data. | 翻訳日:2024-09-06 02:43:06 公開日:2024-09-03 |
# T1造影MRIによる下行結腸癌に対する多パラメータMRIの有用性の検討
T1-contrast Enhanced MRI Generation from Multi-parametric MRI for Glioma Patients with Latent Tumor Conditioning ( http://arxiv.org/abs/2409.01622v1 ) ライセンス: Link先を確認 | Zach Eidex, Mojtaba Safari, Richard L. J. Qiu, David S. Yu, Hui-Kuo Shu, Hui Mao, Xiaofeng Yang, | (参考訳) 目的: ガドリニウム系造影剤(GBCA)は、T1強調(T1W)MRIを用いて脳腫瘍のキャラクタリゼーションを高めるために、グリオーマ患者のMRIスキャンで一般的に用いられる。
しかし、GBCA毒性への懸念が高まっている。
本研究では,事前コントラストマルチパラメトリックMRIからT1ポストコントラスト(T1C)を生成するディープラーニングフレームワークを開発した。
アプローチ: 高品質なT1C画像を予測するTA-ViTモデルを提案する。
予測された腫瘍領域は、適応的な層ノルムゼロ機構によって予測されたセグメンテーションマップからトランスフォーマー層を条件付けすることにより、大幅に改善される(P < .001)。
予測されたセグメンテーションマップはマルチパラメトリック残差 (MPR) ViT モデルを用いて生成され、圧縮された特徴豊富な表現を生成するために潜在空間に変換された。
TA-ViTモデルは501症例のT1C MRI像を予測した。
選択した患者はトレーニング(N=400),バリデーション(N=50),テスト(N=51)に分けた。
主な結果: 定性的および定量的な結果は, TA-ViTモデルがベンチマークMPP-ViTモデルよりも優れていることを示している。
本手法は, 軟部組織コントラストの高い合成T1C MRIを作製し, 腫瘍および全脳容積をより正確に再構成する。
合成T1C画像は, MRP-ViTモデルと比較して, 腫瘍および健常組織において顕著に改善した。
NMSE: 8.53 +/- 4.61E-4; PSNR: 31.2 +/- 2.2; NCC: 0.908 +/- .041, NMSE: 1.22 +/- 1.27E-4, PSNR: 41.3 +/- 4.7, NCC: 0.879 +/- 0.042。
意義:本手法は実T1C画像によく似た合成T1C画像を生成する。
このアプローチの今後の展開と応用は、造影剤を伴わない造影MRIを脳腫瘍患者に提供し、GBCA毒性のリスクを排除し、MRIスキャンプロトコルを簡素化する可能性がある。
Objective: Gadolinium-based contrast agents (GBCAs) are commonly used in MRI scans of patients with gliomas to enhance brain tumor characterization using T1-weighted (T1W) MRI. However, there is growing concern about GBCA toxicity. This study develops a deep-learning framework to generate T1-postcontrast (T1C) from pre-contrast multiparametric MRI. Approach: We propose the tumor-aware vision transformer (TA-ViT) model that predicts high-quality T1C images. The predicted tumor region is significantly improved (P < .001) by conditioning the transformer layers from predicted segmentation maps through adaptive layer norm zero mechanism. The predicted segmentation maps were generated with the multi-parametric residual (MPR) ViT model and transformed into a latent space to produce compressed, feature-rich representations. The TA-ViT model predicted T1C MRI images of 501 glioma cases. Selected patients were split into training (N=400), validation (N=50), and test (N=51) sets. Main Results: Both qualitative and quantitative results demonstrate that the TA-ViT model performs superior against the benchmark MRP-ViT model. Our method produces synthetic T1C MRI with high soft tissue contrast and more accurately reconstructs both the tumor and whole brain volumes. The synthesized T1C images achieved remarkable improvements in both tumor and healthy tissue regions compared to the MRP-ViT model. For healthy tissue and tumor regions, the results were as follows: NMSE: 8.53 +/- 4.61E-4; PSNR: 31.2 +/- 2.2; NCC: 0.908 +/- .041 and NMSE: 1.22 +/- 1.27E-4, PSNR: 41.3 +/- 4.7, and NCC: 0.879 +/- 0.042, respectively. Significance: The proposed method generates synthetic T1C images that closely resemble real T1C images. Future development and application of this approach may enable contrast-agent-free MRI for brain tumor patients, eliminating the risk of GBCA toxicity and simplifying the MRI scan protocol. | 翻訳日:2024-09-06 02:43:06 公開日:2024-09-03 |
# AQ-PINN:炭素効率気候モデリングのための注意力強化量子物理学インフォームドニューラルネットワーク
AQ-PINNs: Attention-Enhanced Quantum Physics-Informed Neural Networks for Carbon-Efficient Climate Modeling ( http://arxiv.org/abs/2409.01626v1 ) ライセンス: Link先を確認 | Siddhant Dutta, Nouhaila Innan, Sadok Ben Yahia, Muhammad Shafique, | (参考訳) 気候変動に対処する人工知能(AI)の計算需要の増大は、Jevonsパラドックスで強調されているように、非効率性と環境への影響に関する重大な懸念を提起する。
本稿では,これらの課題に対処するための量子物理学情報ニューラルネットワークモデル(AQ-PINN)を提案する。
このアプローチは、計算負担と炭素フットプリントを低減しつつ、Navier-Stokes方程式によって制御される流体力学の予測精度を高めることを目的として、物理情報ニューラルネットワーク(PINN)に量子コンピューティング技術を統合する。
我々のAQ-PINNは、変動型量子多頭部自己保持機構を利用することで、古典的多頭部自己保持法と比較して、モデルパラメータの51.51%削減を実現し、コンバージェンスとロスを同等に維持する。
また、量子テンソルネットワークを用いて表現能力を高め、より効率的な勾配計算とバレンプラトーへの感受性の低下につながる。
我々のAQ-PINNは、より持続的で効果的な気候モデリングソリューションへの重要な一歩である。
The growing computational demands of artificial intelligence (AI) in addressing climate change raise significant concerns about inefficiencies and environmental impact, as highlighted by the Jevons paradox. We propose an attention-enhanced quantum physics-informed neural networks model (AQ-PINNs) to tackle these challenges. This approach integrates quantum computing techniques into physics-informed neural networks (PINNs) for climate modeling, aiming to enhance predictive accuracy in fluid dynamics governed by the Navier-Stokes equations while reducing the computational burden and carbon footprint. By harnessing variational quantum multi-head self-attention mechanisms, our AQ-PINNs achieve a 51.51% reduction in model parameters compared to classical multi-head self-attention methods while maintaining comparable convergence and loss. It also employs quantum tensor networks to enhance representational capacity, which can lead to more efficient gradient computations and reduced susceptibility to barren plateaus. Our AQ-PINNs represent a crucial step towards more sustainable and effective climate modeling solutions. | 翻訳日:2024-09-06 02:43:06 公開日:2024-09-03 |
# 教師の知識を増強した動的誘導対人蒸留
Dynamic Guidance Adversarial Distillation with Enhanced Teacher Knowledge ( http://arxiv.org/abs/2409.01627v1 ) ライセンス: Link先を確認 | Hyejin Park, Dongbo Min, | (参考訳) 対人蒸留(AD)の領域では、反対に堅牢な教師モデルからより堅牢でない学生モデルへの戦略的かつ正確な知識伝達が最重要である。
DGAD(Dynamic Guidance Adversarial Distillation)フレームワークは,教師モデルの誤分類の是正に重点を置いて,差分サンプルの重要性の課題に対処する。
DGADは、蒸留焦点を動的に調整するために誤分類認識分割(MAP)を採用し、最も信頼性の高い教師予測に向けて学習プロセスを最適化する。
さらに, 誤り訂正ラベルスワッピング (ELS) は, クリーン入力と逆入力の両方において教師の誤分類を補正し, 知識伝達の質を向上する。
さらに、PCR(Predictive Consistency Regularization)は、クリーン入力と逆入力の両方で学生モデルの一貫した性能を保証し、全体的な堅牢性を大幅に向上させる。
これらの手法を統合することで、DGADはクリーンデータの精度を大幅に改善し、洗練された敵の脅威に対するモデルの防御を固める。
CIFAR10, CIFAR100, Tiny ImageNetデータセットに対する実験的検証は, 様々なモデルアーキテクチャを用いて, DGADの有効性を示した。
In the realm of Adversarial Distillation (AD), strategic and precise knowledge transfer from an adversarially robust teacher model to a less robust student model is paramount. Our Dynamic Guidance Adversarial Distillation (DGAD) framework directly tackles the challenge of differential sample importance, with a keen focus on rectifying the teacher model's misclassifications. DGAD employs Misclassification-Aware Partitioning (MAP) to dynamically tailor the distillation focus, optimizing the learning process by steering towards the most reliable teacher predictions. Additionally, our Error-corrective Label Swapping (ELS) corrects misclassifications of the teacher on both clean and adversarially perturbed inputs, refining the quality of knowledge transfer. Further, Predictive Consistency Regularization (PCR) guarantees consistent performance of the student model across both clean and adversarial inputs, significantly enhancing its overall robustness. By integrating these methodologies, DGAD significantly improves upon the accuracy of clean data and fortifies the model's defenses against sophisticated adversarial threats. Our experimental validation on CIFAR10, CIFAR100, and Tiny ImageNet datasets, employing various model architectures, demonstrates the efficacy of DGAD, establishing it as a promising approach for enhancing both the robustness and accuracy of student models in adversarial settings. | 翻訳日:2024-09-06 02:43:06 公開日:2024-09-03 |
# CTG-KrEW:K-平均クラスタリングと効率的な単語埋め込みによる条件付きタブラリGANによる合成構造関連コンテンツの生成
CTG-KrEW: Generating Synthetic Structured Contextually Correlated Content by Conditional Tabular GAN with K-Means Clustering and Efficient Word Embedding ( http://arxiv.org/abs/2409.01628v1 ) ライセンス: Link先を確認 | Riya Samanta, Bidyut Saha, Soumya K. Ghosh, Sajal K. Das, | (参考訳) 条件付き Tabular Generative Adversarial Networks (CTGAN) とその各種誘導体は, 高い性能と適応性を示すために, 効率的かつ柔軟に合成表データを作成する能力に魅力がある。
しかし、そのようなモデルには一定の限界がある。
1つ目は、文脈的に相関した単語やフレーズのセマンティックな整合性を維持することができないことである。
例えば、フリーランサープロファイルのスキルセットは、個々のスキルが意味的に相互接続され、特定のドメインの関心や資格を示すような特性である。
従来のアプローチの2つめの課題は、意味的に浅いコンテンツを生成することに加えて、コンテキスト的に相関した表型コンテンツを生成するために適用された場合、トレーニング段階で巨大なメモリリソースとCPU時間を消費することである。
これらの問題に対処するために, 属性が意味的および文脈的に一貫性のある単語の集合であるリアルな合成表データを生成するのに有効なCTGKrEW(Conditional Tabular GAN with KMeans Clustering and Word Embedding)を提案する。
CTGKrEWは、現実世界のフリーランシングプラットフォームであるUpworkのデータセットを使用して、トレーニングされ、評価される。
フレームワークのシステム実現可能性をテストするとともに, 変動性, 文脈的類似性, 周波数分布, 連想性を分析するための総合的な実験を行った。
CTGKrEWは、従来のアプローチに比べて、CPU時間の約99.%、メモリフットプリントも33.%削減している。
さらに,スキル関連情報を含むリアルなデータ生成を容易にするWebアプリケーションKrEWを開発した。
このアプリケーションはhttps://riyasamanta.github.io/krew.htmlで入手できる。
Conditional Tabular Generative Adversarial Networks (CTGAN) and their various derivatives are attractive for their ability to efficiently and flexibly create synthetic tabular data, showcasing strong performance and adaptability. However, there are certain critical limitations to such models. The first is their inability to preserve the semantic integrity of contextually correlated words or phrases. For instance, skillset in freelancer profiles is one such attribute where individual skills are semantically interconnected and indicative of specific domain interests or qualifications. The second challenge of traditional approaches is that, when applied to generate contextually correlated tabular content, besides generating semantically shallow content, they consume huge memory resources and CPU time during the training stage. To address these problems, we introduce a novel framework, CTGKrEW (Conditional Tabular GAN with KMeans Clustering and Word Embedding), which is adept at generating realistic synthetic tabular data where attributes are collections of semantically and contextually coherent words. CTGKrEW is trained and evaluated using a dataset from Upwork, a realworld freelancing platform. Comprehensive experiments were conducted to analyze the variability, contextual similarity, frequency distribution, and associativity of the generated data, along with testing the framework's system feasibility. CTGKrEW also takes around 99\% less CPU time and 33\% less memory footprints than the conventional approach. Furthermore, we developed KrEW, a web application to facilitate the generation of realistic data containing skill-related information. This application, available at https://riyasamanta.github.io/krew.html, is freely accessible to both the general public and the research community. | 翻訳日:2024-09-06 02:43:06 公開日:2024-09-03 |
# SafeEmbodAI: エンボダイドAIシステムにおける移動ロボットの安全フレームワーク
SafeEmbodAI: a Safety Framework for Mobile Robots in Embodied AI Systems ( http://arxiv.org/abs/2409.01630v1 ) ライセンス: Link先を確認 | Wenxiao Zhang, Xiangrui Kong, Thomas Braunl, Jin B. Hong, | (参考訳) ロボットは複雑な言語コマンドをよりよく理解し、理解力と適応性を高めて高度なタスクを実行できる。
しかし、この進歩は、特にロボットナビゲーションタスクにおいて、安全上の課題も引き起こす。
不適切な安全性管理は複雑な環境での障害を招き、悪意のあるコマンドインジェクションに対してシステムが脆弱になる可能性がある。
これらの問題に対処するために,モバイルロボットを組込みAIシステムに統合するための安全フレームワークである‘textit{SafeEmbodAI} を提案する。
\textit{SafeEmbodAI} にはセキュアなプロンプト、状態管理、安全性検証機構が組み込まれており、マルチモーダルデータによる推論と応答の検証において LLM の保護と支援を行う。
我々は、ミッション指向の探索を評価するための指標を設計し、シミュレーション環境での評価は、我々のフレームワークが悪意のあるコマンドからの脅威を効果的に軽減し、様々な環境設定におけるパフォーマンスを改善し、組み込まれたAIシステムの安全性を保証することを実証する。
特に,混合障害のある複雑な環境では,攻撃シナリオのベースラインに比べて267倍の大幅な性能向上を示し,その頑健さを強調した。
Embodied AI systems, including AI-powered robots that autonomously interact with the physical world, stand to be significantly advanced by Large Language Models (LLMs), which enable robots to better understand complex language commands and perform advanced tasks with enhanced comprehension and adaptability, highlighting their potential to improve embodied AI capabilities. However, this advancement also introduces safety challenges, particularly in robotic navigation tasks. Improper safety management can lead to failures in complex environments and make the system vulnerable to malicious command injections, resulting in unsafe behaviours such as detours or collisions. To address these issues, we propose \textit{SafeEmbodAI}, a safety framework for integrating mobile robots into embodied AI systems. \textit{SafeEmbodAI} incorporates secure prompting, state management, and safety validation mechanisms to secure and assist LLMs in reasoning through multi-modal data and validating responses. We designed a metric to evaluate mission-oriented exploration, and evaluations in simulated environments demonstrate that our framework effectively mitigates threats from malicious commands and improves performance in various environment settings, ensuring the safety of embodied AI systems. Notably, In complex environments with mixed obstacles, our method demonstrates a significant performance increase of 267\% compared to the baseline in attack scenarios, highlighting its robustness in challenging conditions. | 翻訳日:2024-09-06 02:43:06 公開日:2024-09-03 |
# 夢は必要なものすべて
Dreaming is All You Need ( http://arxiv.org/abs/2409.01633v1 ) ライセンス: Link先を確認 | Mingze Ni, Wei Liu, | (参考訳) 分類タスクでは、探索と精度の調和が最重要となる。
そこで本研究では,このバランスを打つための2つの新しいディープラーニングモデルであるSleepNetとDreamNetを紹介した。
SleepNetは、教師なしの「スリープ」段階と教師なしの「スリープ」段階をシームレスに統合する。SleepNet内の専用ニューロンは、これらの教師なし機能に埋め込まれ、探索学習を容易にする断続的な「スリープ」ブロックを形成する。
SleepNetの基盤として、DreamNetは隠れた状態を再構築するために完全なエンコーダ・デコーダフレームワークを使用している。
この再構築プロセスは、学習した表現のさらなる探索と洗練を可能にする。
さらに、私たちのSleepNetとDreamNetの原則は汎用的で、コンピュータビジョンと自然言語処理の両方の下流タスクに適用できます。
多様な画像およびテキストデータセットに対する広範な実証評価を通じて、SleepNetとDreeanNetは最先端のモデルよりも優れた性能を示し、非教師なし探索の強みと、我々の革新的なアプローチによって得られた教師付き精度を示している。
In classification tasks, achieving a harmonious balance between exploration and precision is of paramount importance. To this end, this research introduces two novel deep learning models, SleepNet and DreamNet, to strike this balance. SleepNet seamlessly integrates supervised learning with unsupervised ``sleep" stages using pre-trained encoder models. Dedicated neurons within SleepNet are embedded in these unsupervised features, forming intermittent ``sleep" blocks that facilitate exploratory learning. Building upon the foundation of SleepNet, DreamNet employs full encoder-decoder frameworks to reconstruct the hidden states, mimicking the human "dreaming" process. This reconstruction process enables further exploration and refinement of the learned representations. Moreover, the principle ideas of our SleepNet and DreamNet are generic and can be applied to both computer vision and natural language processing downstream tasks. Through extensive empirical evaluations on diverse image and text datasets, SleepNet and DreanNet have demonstrated superior performance compared to state-of-the-art models, showcasing the strengths of unsupervised exploration and supervised precision afforded by our innovative approaches. | 翻訳日:2024-09-06 02:43:06 公開日:2024-09-03 |
# PMLBmini: データスカースアプリケーションのためのタブラル分類ベンチマークスイート
PMLBmini: A Tabular Classification Benchmark Suite for Data-Scarce Applications ( http://arxiv.org/abs/2409.01635v1 ) ライセンス: Link先を確認 | Ricardo Knauer, Marvin Grimm, Erik Rodner, | (参考訳) 実際、我々はしばしば小さな表データに直面している。
しかし、現在の表型ベンチマークはデータスカースなアプリケーションに向けられていないため、経験的な比較から意味のある結論を導き出すことは非常に困難である。
PMLBminiは44のバイナリ分類データセットからなるベンチマークスイートで、サンプルサイズは$\leq$500である。
当社のスイートは、現在の自動機械学習(AutoML)フレームワーク、市販の表層ニューラルネットワーク、低データ構造における古典的線形モデルなど、徹底的に評価するために使用しています。
我々の分析によると、最先端のAutoMLとディープラーニングのアプローチは、単純なロジスティック回帰ベースラインでさえも良好に上回りませんが、AutoMLとディープラーニングメソッドが実際に適用できるシナリオを特定します。
私たちのベンチマークスイートはhttps://github.com/RicardoKnauer/TabMiniで公開されています。
In practice, we are often faced with small-sized tabular data. However, current tabular benchmarks are not geared towards data-scarce applications, making it very difficult to derive meaningful conclusions from empirical comparisons. We introduce PMLBmini, a tabular benchmark suite of 44 binary classification datasets with sample sizes $\leq$ 500. We use our suite to thoroughly evaluate current automated machine learning (AutoML) frameworks, off-the-shelf tabular deep neural networks, as well as classical linear models in the low-data regime. Our analysis reveals that state-of-the-art AutoML and deep learning approaches often fail to appreciably outperform even a simple logistic regression baseline, but we also identify scenarios where AutoML and deep learning methods are indeed reasonable to apply. Our benchmark suite, available on https://github.com/RicardoKnauer/TabMini , allows researchers and practitioners to analyze their own methods and challenge their data efficiency. | 翻訳日:2024-09-06 02:43:06 公開日:2024-09-03 |
# 低照度画像強調のための高度な周波数アンタングル化パラダイムの展開
Unveiling Advanced Frequency Disentanglement Paradigm for Low-Light Image Enhancement ( http://arxiv.org/abs/2409.01641v1 ) ライセンス: Link先を確認 | Kun Zhou, Xinyu Lin, Wenbo Li, Xiaogang Xu, Yuanhao Cai, Zhonghang Liu, Xiaoguang Han, Jiangbo Lu, | (参考訳) 従来の低照度画像強調(LLIE)アプローチでは、低周波(例えば、照明回復)と高周波(例えば、ノイズ低減)の中間課題に周波数分解技術を用いており、主に性能向上のために専用・複雑なネットワークの開発に重点を置いている。
対照的に、高度な非絡み合いパラダイムは、計算オーバーヘッドを最小限に抑えた最先端の手法を一貫して強化するのに十分である。
画像ラプラス分解法を応用し,周波数不整合最適化を改良した新しい低周波整合性手法を提案する。
提案手法は,CNN,トランスフォーマー,フローベースおよび拡散モデルなどの各種モデルとシームレスに統合することにより,顕著な適応性を示す。
注目すべき改善点は5つの人気のあるベンチマークで示されており、6つの最先端モデルで達成されたPSNRの7.68dBのゲインである。
印象的なことに、我々の手法は88Kの余分なパラメータで効率を保ち、低照度画像強調の挑戦的な領域に新しい標準を定めている。
Previous low-light image enhancement (LLIE) approaches, while employing frequency decomposition techniques to address the intertwined challenges of low frequency (e.g., illumination recovery) and high frequency (e.g., noise reduction), primarily focused on the development of dedicated and complex networks to achieve improved performance. In contrast, we reveal that an advanced disentanglement paradigm is sufficient to consistently enhance state-of-the-art methods with minimal computational overhead. Leveraging the image Laplace decomposition scheme, we propose a novel low-frequency consistency method, facilitating improved frequency disentanglement optimization. Our method, seamlessly integrating with various models such as CNNs, Transformers, and flow-based and diffusion models, demonstrates remarkable adaptability. Noteworthy improvements are showcased across five popular benchmarks, with up to 7.68dB gains on PSNR achieved for six state-of-the-art models. Impressively, our approach maintains efficiency with only 88K extra parameters, setting a new standard in the challenging realm of low-light image enhancement. | 翻訳日:2024-09-06 02:43:06 公開日:2024-09-03 |
# ReKep:ロボットマニピュレーションのための関係キーポイント制約の時空間推論
ReKep: Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation ( http://arxiv.org/abs/2409.01652v1 ) ライセンス: Link先を確認 | Wenlong Huang, Chen Wang, Yunzhu Li, Ruohan Zhang, Li Fei-Fei, | (参考訳) ロボット操作タスクをロボットと環境を関連付ける制約として表現することは、望ましいロボット動作をエンコードする有望な方法である。
しかし、どのようにして制約を定式化するかは定かではない。
1)多種多様な課題に対して多様である。
2)手作業によるラベリングが不要で、
3) ロボットの動作をリアルタイムで生成するために, 既成の解法が最適である。
本稿では,ロボット操作における制約を視覚的に表現するRelational Keypoint Constraints (ReKep)を紹介する。
具体的には、ReKepは環境内の3Dキーポイントのセットを数値的なコストにマッピングするPython関数として表現される。
操作タスクをリレーショナルキーポイント制約のシーケンスとして表現することにより、ロボット動作(SE(3)におけるエンドエフェクタポーズのシーケンスで表される)をリアルタイムに知覚行動ループで解決する階層的な最適化手順を適用できることを実証する。
さらに,新しいタスク毎に手動でReKepの仕様を作成する必要性を回避するため,大規模な視覚モデルと視覚言語モデルを活用して,自由形式の言語命令とRGB-D観察からReKepを生成する自動手順を考案した。
我々は車輪付き単腕プラットフォームと静止式双腕プラットフォームにシステム実装を行い、多段式、内輪型、双対型、リアクティブな動作をタスク固有のデータや環境モデルなしで、様々な操作タスクを行えるようにした。
公式サイト - https://rekep-robot.github.io
Representing robotic manipulation tasks as constraints that associate the robot and the environment is a promising way to encode desired robot behaviors. However, it remains unclear how to formulate the constraints such that they are 1) versatile to diverse tasks, 2) free of manual labeling, and 3) optimizable by off-the-shelf solvers to produce robot actions in real-time. In this work, we introduce Relational Keypoint Constraints (ReKep), a visually-grounded representation for constraints in robotic manipulation. Specifically, ReKep is expressed as Python functions mapping a set of 3D keypoints in the environment to a numerical cost. We demonstrate that by representing a manipulation task as a sequence of Relational Keypoint Constraints, we can employ a hierarchical optimization procedure to solve for robot actions (represented by a sequence of end-effector poses in SE(3)) with a perception-action loop at a real-time frequency. Furthermore, in order to circumvent the need for manual specification of ReKep for each new task, we devise an automated procedure that leverages large vision models and vision-language models to produce ReKep from free-form language instructions and RGB-D observations. We present system implementations on a wheeled single-arm platform and a stationary dual-arm platform that can perform a large variety of manipulation tasks, featuring multi-stage, in-the-wild, bimanual, and reactive behaviors, all without task-specific data or environment models. Website at https://rekep-robot.github.io. | 翻訳日:2024-09-06 02:43:06 公開日:2024-09-03 |
# 線グラフのグラフ
Graphons of Line Graphs ( http://arxiv.org/abs/2409.01656v1 ) ライセンス: Link先を確認 | Sevvandi Kandanaarachchi, Cheng Soon Ong, | (参考訳) グラフンは収束グラフ列の極限である。
密度グラフのグラフは、ブループリントとして機能し、同様の性質を持つ任意の大きさのグラフを生成することができるため、有用である。
しかし、スパースグラフではそうではない。
スパースグラフはゼログラフに収束し、生成されたグラフは空か端なしとなる。
したがって、古典的なグラフ定義はスパースグラフでは失敗する。
この制限を克服し、スパースグラフをより深く理解するために、いくつかの方法が提案されている。
しかし、スパースグラフの脆弱な性質は、これらの手法を数学的に複雑にする。
本稿では,スパースグラフの特定の部分集合に光を放つ簡単な方法を示す。
この手法では、元のグラフを行グラフにマッピングする。
線グラフはエッジを頂点にマッピングし、元のグラフのエッジが頂点を共有するときにエッジを接続する。
グラフが特定の性質を満たすことを示し、この2次性質はスパースであるが、密度の高い線グラフをもたらす。
特に、星グラフは、密度の高い直線グラフと直線グラフのゼロでないグラフを生じる2次特性を満たす。
同様に、超線型優越アタッチメントグラフは、ほぼ確実に高密度な直線グラフをもたらす。
対照的に、エルドス=レーニグラフを含む密度グラフは線グラフをスパースにし、結果としてゼログラフとなる。
A graphon is the limit of a converging graph sequence. Graphons of dense graphs are useful as they can act as a blueprint and generate graphs of arbitrary size with similar properties. But for sparse graphs this is not the case. Sparse graphs converge to the zero graphon, making the generated graphs empty or edgeless. Thus, the classical graphon definition fails for sparse graphs. Several methods have been proposed to overcome this limitation and to understand sparse graphs more deeply. However, the fragile nature of sparse graphs makes these methods mathematically complex. In this paper we show a simple method that can shed light on a certain subset of sparse graphs. The method involves mapping the original graphs to their line graphs. Line graphs map edges to vertices and connects edges when edges in the original graph share a vertex. We show that graphs satisfying a particular property, which we call the square-degree property are sparse, but give rise to dense line graphs. In particular, star graphs satisfy the square-degree property resulting in dense line graphs and non-zero graphons of line graphs. Similarly, superlinear preferential attachment graphs give rise to dense line graphs almost surely. In contrast, dense graphs, including Erdos-Renyi graphs make the line graphs sparse, resulting in the zero graphon. | 翻訳日:2024-09-06 02:43:06 公開日:2024-09-03 |
# Yes-Men から Truth-Teller へ:ピンポイントチューニングによる大規模言語モデルにおける語彙の対応
From Yes-Men to Truth-Tellers: Addressing Sycophancy in Large Language Models with Pinpoint Tuning ( http://arxiv.org/abs/2409.01658v1 ) ライセンス: Link先を確認 | Wei Chen, Zhen Huang, Liang Xie, Binbin Lin, Houqiang Li, Le Lu, Xinmei Tian, Deng Cai, Yonggang Zhang, Wenxiao Wan, Xu Shen, Jieping Ye, | (参考訳) 大規模言語モデル(LLM)は、適切な応答を提供するよりも、ユーザのプロンプトへの順守を優先しがちである。
ユーザから挑戦を受けると、LLMは間違いを認め、たとえ最初は正しい回答を提供していたとしても、不正確な応答を提供する傾向にある。
近年の研究では、教師付き微調整(SFT)を用いて、梅毒の問題を緩和する手法が提案されている。
この課題に対処するため,本研究では,特定の目的に対して,関心の領域を調整した新しいピンポイントチューニング(SPT)を提案する。
具体的には、SPTはまず基本モジュールの小さなパーセンテージ(5%)を明らかにし、検証する。
I. E. サイコファンシー
その後、SPTはこれらのモジュールを特定し、残りのモジュールを凍結するだけである。
提案したSPTの有効性を検証するため,SPTがLLMの梅毒問題(SFTよりも優れている)を著しく軽減することを示す総合的な実験を行った。
さらに、SPT は LLM の一般的な能力に制限的あるいは全く影響しない。
その結果,LLMの目標能力を正確に,効果的に,効率的に説明し,改善する方法が明らかにされた。
Large Language Models (LLMs) tend to prioritize adherence to user prompts over providing veracious responses, leading to the sycophancy issue. When challenged by users, LLMs tend to admit mistakes and provide inaccurate responses even if they initially provided the correct answer. Recent works propose to employ supervised fine-tuning (SFT) to mitigate the sycophancy issue, while it typically leads to the degeneration of LLMs' general capability. To address the challenge, we propose a novel supervised pinpoint tuning (SPT), where the region-of-interest modules are tuned for a given objective. Specifically, SPT first reveals and verifies a small percentage (<5%) of the basic modules, which significantly affect a particular behavior of LLMs. i.e., sycophancy. Subsequently, SPT merely fine-tunes these identified modules while freezing the rest. To verify the effectiveness of the proposed SPT, we conduct comprehensive experiments, demonstrating that SPT significantly mitigates the sycophancy issue of LLMs (even better than SFT). Moreover, SPT introduces limited or even no side effects on the general capability of LLMs. Our results shed light on how to precisely, effectively, and efficiently explain and improve the targeted ability of LLMs. | 翻訳日:2024-09-06 02:43:06 公開日:2024-09-03 |
# 算術計算における大規模言語モデルの解釈と改善
Interpreting and Improving Large Language Models in Arithmetic Calculation ( http://arxiv.org/abs/2409.01659v1 ) ライセンス: Link先を確認 | Wei Zhang, Chaoqun Wan, Yonggang Zhang, Yiu-ming Cheung, Xinmei Tian, Xu Shen, Jieping Ye, | (参考訳) 大規模言語モデル(LLM)は、多くのアプリケーションにおいて顕著なポテンシャルを示し、数学的計算のような複雑な推論タスクに取り組む能力を示す。
しかし、最も単純な算術計算であっても、LLMの背後にある本質的なメカニズムは謎のままであり、信頼性を確保することは困難である。
本研究では,LLMが計算を行う特定のメカニズムを明らかにする。
総合的な実験を通して、LLMは、計算過程においてオペランドや演算子に焦点を合わせる上で重要な役割を担っている注意ヘッドのごく一部(5%)を頻繁に含んでいることが判明した。
その後、これらのオペランドからの情報は多層パーセプトロン(MLP)を通して処理され、徐々に最終解へと導かれる。
これらのピボットヘッド/MLPは、特定のデータセットで特定されているが、異なるデータセットと異なるタスクの間で転送可能性を示す。
この知見から,LLMの計算性能を高めるために,これらの重要なヘッド/MLPを選択的に微調整する可能性について検討した。
このような正確なチューニングは、非数学的なタスクのパフォーマンスを損なうことなく、数学の卓越した向上をもたらすことを実証的に見出した。
我々の研究は、LLMに固有の算術計算能力に関する予備的な調査として役立ち、より複雑な数学的タスクを明らかにするための確かな基礎を築き上げている。
Large language models (LLMs) have demonstrated remarkable potential across numerous applications and have shown an emergent ability to tackle complex reasoning tasks, such as mathematical computations. However, even for the simplest arithmetic calculations, the intrinsic mechanisms behind LLMs remain mysterious, making it challenging to ensure reliability. In this work, we delve into uncovering a specific mechanism by which LLMs execute calculations. Through comprehensive experiments, we find that LLMs frequently involve a small fraction (< 5%) of attention heads, which play a pivotal role in focusing on operands and operators during calculation processes. Subsequently, the information from these operands is processed through multi-layer perceptrons (MLPs), progressively leading to the final solution. These pivotal heads/MLPs, though identified on a specific dataset, exhibit transferability across different datasets and even distinct tasks. This insight prompted us to investigate the potential benefits of selectively fine-tuning these essential heads/MLPs to boost the LLMs' computational performance. We empirically find that such precise tuning can yield notable enhancements on mathematical prowess, without compromising the performance on non-mathematical tasks. Our work serves as a preliminary exploration into the arithmetic calculation abilities inherent in LLMs, laying a solid foundation to reveal more intricate mathematical tasks. | 翻訳日:2024-09-06 02:43:06 公開日:2024-09-03 |
# S^2$NeRF: NeRFのためのプライバシ保護トレーニングフレームワーク
$S^2$NeRF: Privacy-preserving Training Framework for NeRF ( http://arxiv.org/abs/2409.01661v1 ) ライセンス: Link先を確認 | Bokang Zhang, Yanglin Zhang, Zhikun Zhang, Jinglan Yang, Lingying Huang, Junfeng Wu, | (参考訳) Neural Radiance Fields (NeRF)は、3Dコンピュータビジョンとグラフィックスに革命をもたらし、新しいビュー合成を促進し、拡張現実やeコマースのようなセクターに影響を与える。
しかし、NeRFの機密画像データを含む広範囲なデータ収集への依存は、ユーザーがモデルトレーニングのためにこのデータをアップロードする際、重大なプライバシー上のリスクをもたらす。
この問題に対処するために、まず、スプリットラーニング(SL)技術を取り入れたトレーニングフレームワークであるSplitNeRFを提案し、ローカルデータを共有せずにクライアントとサーバ間のプライバシー保護協調モデルトレーニングを可能にする。
その利点にもかかわらず、我々は2つの攻撃方法であるSurrogate Model AttackとScene-aided Surrogate Model Attackを開発することでSplitNeRFの脆弱性を特定する。
これらの脅威に対処するために、有効な防御機構を統合するセキュアなSplitNeRFである$S^2$NeRFを導入する。
勾配ノルムに関連する減衰ノイズを共有勾配情報に導入することにより、$S^2$NeRFはNeRFモデルの高実用性を維持しつつプライバシを保存する。
複数のデータセットにわたる広範な評価は、プライバシー侵害に対する$S^2$NeRFの有効性を示し、センシティブなアプリケーションにおけるセキュアなNeRFトレーニングの実現性を確認します。
Neural Radiance Fields (NeRF) have revolutionized 3D computer vision and graphics, facilitating novel view synthesis and influencing sectors like extended reality and e-commerce. However, NeRF's dependence on extensive data collection, including sensitive scene image data, introduces significant privacy risks when users upload this data for model training. To address this concern, we first propose SplitNeRF, a training framework that incorporates split learning (SL) techniques to enable privacy-preserving collaborative model training between clients and servers without sharing local data. Despite its benefits, we identify vulnerabilities in SplitNeRF by developing two attack methods, Surrogate Model Attack and Scene-aided Surrogate Model Attack, which exploit the shared gradient data and a few leaked scene images to reconstruct private scene information. To counter these threats, we introduce $S^2$NeRF, secure SplitNeRF that integrates effective defense mechanisms. By introducing decaying noise related to the gradient norm into the shared gradient information, $S^2$NeRF preserves privacy while maintaining a high utility of the NeRF model. Our extensive evaluations across multiple datasets demonstrate the effectiveness of $S^2$NeRF against privacy breaches, confirming its viability for secure NeRF training in sensitive applications. | 翻訳日:2024-09-06 02:30:20 公開日:2024-09-03 |
# 知覚場を効率的に拡張する: 大規模クラウドセマンティックセマンティックセマンティックセグメンテーションのための局所スプリット注意と並列アグリゲーション
Efficiently Expanding Receptive Fields: Local Split Attention and Parallel Aggregation for Enhanced Large-scale Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2409.01662v1 ) ライセンス: Link先を確認 | Haodong Wang, Chongyu Wang, Yinghui Quan, Di Wang, | (参考訳) 大規模3Dポイントクラウドセグメンテーションのためのディープラーニングモデルにおける受容領域の拡大は、リッチなコンテキスト情報をキャプチャする効果的な手法であり、それによってネットワークが有意義な特徴を学習する能力を高める。
しかし、これはしばしば計算の複雑さと過度に適合するリスクを増大させ、学習パラダイムの効率性と有効性に挑戦する。
これらの制約に対処するため、我々は、局所的な分割操作を通じて受容領域を効果的に拡張するローカルスプリット注意プール(LSAP)機構を提案し、より広い文脈知識の獲得を容易にする。
同時に、アテンションプールレイヤーに関連する計算負荷を最適化し、より合理化された処理ワークフローを保証する。
LSAPに基づいて、並列集約拡張(PAE)モジュールを導入し、2Dおよび3D隣り合う情報を用いてデータの並列処理を可能にし、ネットワーク内のコンテキスト表現をさらに強化する。
上記の設計を踏まえ,大規模クラウドセマンティックセマンティックセグメンテーションのための新しいフレームワークLSNetを考案した。
大規模な評価では、提案されたPAEモジュールを既存のフレームワークにシームレスに統合する効果が示され、mIoU(Universal over Union)メトリクスの平均交叉が大幅に改善され、最大11%の顕著な増加が見られた。
さらにLSNetは、S3DIS、Tronto3D、SensatUrbanを含む3つのベンチマークデータセットの最先端セマンティックセグメンテーションネットワークよりも優れたパフォーマンスを示した。
提案手法は, 実世界の大規模シーンにおいて, 計算効率と実用性を両立させるため, ほぼ38.8%の高速化を実現した。
Expanding the receptive field in a deep learning model for large-scale 3D point cloud segmentation is an effective technique for capturing rich contextual information, which consequently enhances the network's ability to learn meaningful features. However, this often leads to increased computational complexity and risk of overfitting, challenging the efficiency and effectiveness of the learning paradigm. To address these limitations, we propose the Local Split Attention Pooling (LSAP) mechanism to effectively expand the receptive field through a series of local split operations, thus facilitating the acquisition of broader contextual knowledge. Concurrently, it optimizes the computational workload associated with attention-pooling layers to ensure a more streamlined processing workflow. Based on LSAP, a Parallel Aggregation Enhancement (PAE) module is introduced to enable parallel processing of data using both 2D and 3D neighboring information to further enhance contextual representations within the network. In light of the aforementioned designs, we put forth a novel framework, designated as LSNet, for large-scale point cloud semantic segmentation. Extensive evaluations demonstrated the efficacy of seamlessly integrating the proposed PAE module into existing frameworks, yielding significant improvements in mean intersection over union (mIoU) metrics, with a notable increase of up to 11%. Furthermore, LSNet demonstrated superior performance compared to state-of-the-art semantic segmentation networks on three benchmark datasets, including S3DIS, Toronto3D, and SensatUrban. It is noteworthy that our method achieved a substantial speedup of approximately 38.8% compared to those employing similar-sized receptive fields, which serves to highlight both its computational efficiency and practical utility in real-world large-scale scenes. | 翻訳日:2024-09-06 02:30:20 公開日:2024-09-03 |
# 長期言語モデルにおけるRAGの防衛
In Defense of RAG in the Era of Long-Context Language Models ( http://arxiv.org/abs/2409.01666v1 ) ライセンス: Link先を確認 | Tan Yu, Anbang Xu, Rama Akkiraju, | (参考訳) 初期のLLMにおける限られたコンテキスト制限を克服し、検索強化生成(RAG)は、過去においてコンテキストベースの回答生成の信頼性の高いソリューションである。
近年、長文LLMの出現により、より長いテキストシーケンスを組み込めるようになり、RAGの魅力は低下した。
近年の研究では、長文LLMは長文アプリケーションにおいてRAGを著しく上回っていることが示されている。
RAGよりもLLMの方が好まれる既存の研究とは異なり、LLMの極端に長いコンテキストは関連する情報への焦点の減少に悩まされ、答えの品質が低下する可能性があると論じている。
本稿では,長文応答生成におけるRAGの再検討を行う。
本稿では,長文質問応答アプリケーションにおけるRAGの性能を大幅に向上させる命令保存検索拡張生成(OP-RAG)機構を提案する。
OP-RAGでは、取得したチャンクの数が増加するにつれて、解答の品質は最初上昇し、その後低下し、反転したU字曲線を形成する。
OP-RAG が長文 LLM よりもはるかに少ないトークンで高い応答品質を達成できるスイートポイントが存在する。
公開ベンチマークでの大規模な実験は、OP-RAGの優位性を実証している。
Overcoming the limited context limitations in early-generation LLMs, retrieval-augmented generation (RAG) has been a reliable solution for context-based answer generation in the past. Recently, the emergence of long-context LLMs allows the models to incorporate much longer text sequences, making RAG less attractive. Recent studies show that long-context LLMs significantly outperform RAG in long-context applications. Unlike the existing works favoring the long-context LLM over RAG, we argue that the extremely long context in LLMs suffers from a diminished focus on relevant information and leads to potential degradation in answer quality. This paper revisits the RAG in long-context answer generation. We propose an order-preserve retrieval-augmented generation (OP-RAG) mechanism, which significantly improves the performance of RAG for long-context question-answer applications. With OP-RAG, as the number of retrieved chunks increases, the answer quality initially rises, and then declines, forming an inverted U-shaped curve. There exist sweet points where OP-RAG could achieve higher answer quality with much less tokens than long-context LLM taking the whole context as input. Extensive experiments on public benchmark demonstrate the superiority of our OP-RAG. | 翻訳日:2024-09-06 02:30:20 公開日:2024-09-03 |
# VProChart: 視覚知覚アライメントエージェントとプログラム的ソリューション推論によるチャート質問への回答
VProChart: Answering Chart Question through Visual Perception Alignment Agent and Programmatic Solution Reasoning ( http://arxiv.org/abs/2409.01667v1 ) ライセンス: Link先を確認 | Muye Huang, Lingling Zhang, Lai Han, Wenjun Wu, Xinyu Zhang, Jun Liu, | (参考訳) チャートは、教育、研究、ビジネスなど、さまざまな分野におけるデータの視覚化に広く利用されている。
CQA(Chart Question Answering)は、チャートに表示されるデータの自動解釈と推論に焦点を当てた、新たなタスクである。
しかし、チャート画像は本質的に解釈が困難であり、チャート関連の問題はしばしば複雑な論理的および数値的推論を伴い、既存のモデルの性能を妨げている。
本稿では、VProChartについて紹介する。VProChartは、軽量な視覚知覚調整エージェント(VPAgent)とプログラム的解推論アプローチを統合することで、CQAにおけるこれらの課題に対処するために設計された新しいフレームワークである。
VPAgentは、人間の視覚知覚の原理に基づくチャート要素のアライメントとモデルを作成し、チャートコンテキストの理解を強化する。
Programmatic Solution Reasoningアプローチは、大きな言語モデル(LLM)を活用して、自然言語推論の質問を構造化されたソリューションプログラムに変換する。
ChartQAやPlotQAといったベンチマークデータセットに関する大規模な実験では、VProChartが既存のメソッドよりも大幅に優れており、チャートによる理解と推論の能力を強調している。
Charts are widely used for data visualization across various fields, including education, research, and business. Chart Question Answering (CQA) is an emerging task focused on the automatic interpretation and reasoning of data presented in charts. However, chart images are inherently difficult to interpret, and chart-related questions often involve complex logical and numerical reasoning, which hinders the performance of existing models. This paper introduces VProChart, a novel framework designed to address these challenges in CQA by integrating a lightweight Visual Perception Alignment Agent (VPAgent) and a Programmatic Solution Reasoning approach. VPAgent aligns and models chart elements based on principles of human visual perception, enhancing the understanding of chart context. The Programmatic Solution Reasoning approach leverages large language models (LLMs) to transform natural language reasoning questions into structured solution programs, facilitating precise numerical and logical reasoning. Extensive experiments on benchmark datasets such as ChartQA and PlotQA demonstrate that VProChart significantly outperforms existing methods, highlighting its capability in understanding and reasoning with charts. | 翻訳日:2024-09-06 02:30:20 公開日:2024-09-03 |
# Pureformer-VC:純変圧器ブロックを用いたノンパラレルワンショット音声変換とトリプルト識別訓練
Pureformer-VC: Non-parallel One-Shot Voice Conversion with Pure Transformer Blocks and Triplet Discriminative Training ( http://arxiv.org/abs/2409.01668v1 ) ライセンス: Link先を確認 | Wenhan Yao, Zedong Xing, Xiarun Chen, Jia Liu, Yongqiang He, Weiping Wen, | (参考訳) ワンショット音声変換(VC)は、任意の音源音声の音色を変化させ、未知のターゲット話者の音色を1つの音声サンプルで一致させることを目的としている。
既存の移動型VC法は, 音声表現の不整合に頼り, 各音声成分を正確にかつ独立に符号化し, 効率よく変換された音声に再コンパイルする。
そこで本研究では,コンバータブロックを用いてアンタングル化されたエンコーダを構築するPureformer-VCと,スタイル転送デコーダをジェネレータとして構築するZipformerブロックを提案する。
このデコーダでは, 話者特性を効果的に統合するために, 効果的なスタイルフォーマブロックを用いた。
モデルは、生成的VAE損失をコンポーネントの符号化に使用し、教師なしの識別訓練に三重項損失を用いた。
そこで我々はZipformerの共有重み付けにスタイルフォーマ法を適用した。
実験結果から,提案手法は単発音声変換シナリオにおける既存手法と比較して,主観的スコアに匹敵する結果が得られ,客観的指標が向上することが示唆された。
One-shot voice conversion(VC) aims to change the timbre of any source speech to match that of the unseen target speaker with only one speech sample. Existing style transfer-based VC methods relied on speech representation disentanglement and suffered from accurately and independently encoding each speech component and recomposing back to converted speech effectively. To tackle this, we proposed Pureformer-VC, which utilizes Conformer blocks to build a disentangled encoder, and Zipformer blocks to build a style transfer decoder as the generator. In the decoder, we used effective styleformer blocks to integrate speaker characteristics into the generated speech effectively. The models used the generative VAE loss for encoding components and triplet loss for unsupervised discriminative training. We applied the styleformer method to Zipformer's shared weights for style transfer. The experimental results show that the proposed model achieves comparable subjective scores and exhibits improvements in objective metrics compared to existing methods in a one-shot voice conversion scenario. | 翻訳日:2024-09-06 02:30:20 公開日:2024-09-03 |
# 特徴量正規化による低値正規化における細粒度視覚認識の強化
Enhancing Fine-Grained Visual Recognition in the Low-Data Regime Through Feature Magnitude Regularization ( http://arxiv.org/abs/2409.01672v1 ) ライセンス: Link先を確認 | Avraham Chapman, Haiming Xu, Lingqiao Liu, | (参考訳) 限られたデータを用いたきめ細かい画像認識モデルの訓練は、ノイズパターンを乱す中で、カテゴリ間の微妙な違いが容易に識別できないため、大きな課題となる。
一般的に使用される戦略のひとつは、事前訓練されたニューラルネットワークを活用することであり、制限されたデータセットで画像分類モデルを構築するための効果的な特徴表現を生成することができる。
しかし、これらの事前訓練されたニューラルネットワークは、通常、目の前のきめ細かい視覚認識(FGVR)タスクとは異なるタスクのために訓練される。
さらに、限られたデータでFGVRモデルを構築する場合、これらの無関係な機能はトレーニングプロセスを支配し、より有用で一般化可能な差別的特徴を覆い隠すことができる。
私たちは、抽出された特徴の規模が均等に分散されていることを保証するために、正規化技術を導入しました。
この正規化は、正規化された特徴のエントロピーを通じて測定される特徴量分布の均一性を最大化することで達成される。
この正規化の背後にある動機は、事前訓練されたモデルから特徴量のバイアスを取り除くことである。
さらに,この正規化の強度を学習過程を通じて調節する動的重み付け機構を開発した。
その明らかな単純さにもかかわらず、我々の手法は様々な細粒度視覚認識データセットに対して顕著な性能向上を示した。
Training a fine-grained image recognition model with limited data presents a significant challenge, as the subtle differences between categories may not be easily discernible amidst distracting noise patterns. One commonly employed strategy is to leverage pretrained neural networks, which can generate effective feature representations for constructing an image classification model with a restricted dataset. However, these pretrained neural networks are typically trained for different tasks than the fine-grained visual recognition (FGVR) task at hand, which can lead to the extraction of less relevant features. Moreover, in the context of building FGVR models with limited data, these irrelevant features can dominate the training process, overshadowing more useful, generalizable discriminative features. Our research has identified a surprisingly simple solution to this challenge: we introduce a regularization technique to ensure that the magnitudes of the extracted features are evenly distributed. This regularization is achieved by maximizing the uniformity of feature magnitude distribution, measured through the entropy of the normalized features. The motivation behind this regularization is to remove bias in feature magnitudes from pretrained models, where some features may be more prominent and, consequently, more likely to be used for classification. Additionally, we have developed a dynamic weighting mechanism to adjust the strength of this regularization throughout the learning process. Despite its apparent simplicity, our approach has demonstrated significant performance improvements across various fine-grained visual recognition datasets. | 翻訳日:2024-09-06 02:30:20 公開日:2024-09-03 |
# 回転機械における健康指標の分類自由拡散に基づく弱改善アプローチ:早期故障検出と状態モニタリングの促進
Classifier-Free Diffusion-Based Weakly-Supervised Approach for Health Indicator Derivation in Rotating Machines: Advancing Early Fault Detection and Condition Monitoring ( http://arxiv.org/abs/2409.01676v1 ) ライセンス: Link先を確認 | Wenyang Hu, Gaetan Frusque, Tianyang Wang, Fulei Chu, Olga Fink, | (参考訳) 回転機械の健康指標の導出は、その維持に不可欠である。
しかし、このプロセスは、ノイズ干渉を導入するだけでなく、説明可能性も欠如しているため、一般的なインテリジェントな手法では困難である。
これらの問題に対処するために、回転機械の健康指標を導出する拡散に基づく弱教師付きアプローチを提案し、早期故障検出と条件の継続的モニタリングを可能にする。
このアプローチは、健全なサンプルといくつかの異常を用いて訓練された分類子フリー拡散モデルに依存している。
このモデルは健康なサンプルを生成する。
そして、元のサンプルと、エンベロープスペクトルにおける生成されたサンプルの違いを比較することで、異常をはっきりと識別する異常マップを構築します。
健康指標が導出され、障害のタイプを説明し、ノイズ干渉を軽減することができる。
2症例の比較研究により,本手法はベースラインモデルと比較して,健康モニタリングの有効性とロバスト性に優れることが示された。
Deriving health indicators of rotating machines is crucial for their maintenance. However, this process is challenging for the prevalent adopted intelligent methods since they may take the whole data distributions, not only introducing noise interference but also lacking the explainability. To address these issues, we propose a diffusion-based weakly-supervised approach for deriving health indicators of rotating machines, enabling early fault detection and continuous monitoring of condition evolution. This approach relies on a classifier-free diffusion model trained using healthy samples and a few anomalies. This model generates healthy samples. and by comparing the differences between the original samples and the generated ones in the envelope spectrum, we construct an anomaly map that clearly identifies faults. Health indicators are then derived, which can explain the fault types and mitigate noise interference. Comparative studies on two cases demonstrate that the proposed method offers superior health monitoring effectiveness and robustness compared to baseline models. | 翻訳日:2024-09-06 02:30:20 公開日:2024-09-03 |
# 知識蒸留のための適応的明示的知識伝達
Adaptive Explicit Knowledge Transfer for Knowledge Distillation ( http://arxiv.org/abs/2409.01679v1 ) ライセンス: Link先を確認 | Hyungkeun Park, Jong-seok Lee, | (参考訳) 分類のためのログベースの知識蒸留(KD)は、特徴ベースのKDと比較してコスト効率が良いが、性能は劣ることが多い。
近年,「暗黒知識」として知られる教師モデルから学生モデルへの非対象クラスの確率分布を効果的に提供することにより,ロジットに基づくKDの性能向上が図られた。
グラデーション分析により、これは暗黙の知識の学習を適応的に制御する効果があることを最初に示す。
そこで本研究では,学習者が明示的な知識(すなわち,対象クラスに対する教師の自信)と暗黙的な知識を適応的に学習できる新たな損失を提案する。
さらに, 有効蒸留およびクラス間関係モデリングのための分類と蒸留タスクを分離することを提案する。
CIFAR-100 および ImageNet データセットの最先端 KD 手法と比較して,適応的明示的知識伝達 (AEKT) 法 (Adaptive explicit Knowledge Transfer) 法 (adaptive explicit Knowledge Transfer) 法 (AEKT) 法は, 性能が向上することを示した。
Logit-based knowledge distillation (KD) for classification is cost-efficient compared to feature-based KD but often subject to inferior performance. Recently, it was shown that the performance of logit-based KD can be improved by effectively delivering the probability distribution for the non-target classes from the teacher model, which is known as `implicit (dark) knowledge', to the student model. Through gradient analysis, we first show that this actually has an effect of adaptively controlling the learning of implicit knowledge. Then, we propose a new loss that enables the student to learn explicit knowledge (i.e., the teacher's confidence about the target class) along with implicit knowledge in an adaptive manner. Furthermore, we propose to separate the classification and distillation tasks for effective distillation and inter-class relationship modeling. Experimental results demonstrate that the proposed method, called adaptive explicit knowledge transfer (AEKT) method, achieves improved performance compared to the state-of-the-art KD methods on the CIFAR-100 and ImageNet datasets. | 翻訳日:2024-09-06 02:30:20 公開日:2024-09-03 |
# ICU心不全患者の死亡予測の最適化:XGBoostの活用とMIMIC-IIIデータベースによる高度な機械学習
Optimizing Mortality Prediction for ICU Heart Failure Patients: Leveraging XGBoost and Advanced Machine Learning with the MIMIC-III Database ( http://arxiv.org/abs/2409.01685v1 ) ライセンス: Link先を確認 | Negin Ashrafi, Armin Abdollahi, Jiahong Zhang, Maryam Pishgar, | (参考訳) 心臓不全は世界中の何百万人もの人々に影響を与え、生活の質を著しく低下させ、高い死亡率をもたらす。
広範な研究にもかかわらず、ICU患者の心不全と死亡率の関係は完全には理解されておらず、より正確な予測モデルの必要性が示唆されている。
本研究は、ICD-9コードを用いて、MIMIC-IIIデータベースから18歳以上の1,177人のデータを解析した。
前処理のステップには、欠落したデータの処理、重複の削除、歪の扱い、データの不均衡に対処するためのオーバーサンプリング技術の使用が含まれていた。
各種インフレーション因子 (VIF) を用いた厳密な特徴選択, 専門的臨床入力, アブレーション研究により, 46種類の重要な特徴が同定され, モデル性能が向上した。
分析では、ロジスティック回帰、サポートベクトルマシン(SVM)、ランダムフォレスト、LightGBM、XGBoostなど、いくつかの機械学習モデルを比較した。
XGBoost は AUC-ROC が 0.9228 (95\% CI 0.8748 - 0.9613) で, 先行研究 (AUC-ROC は 0.8766) と既存文献 (0.824) で報告された最良の結果に優れていた。
改良されたモデルの成功は、高度な特徴選択方法、堅牢な前処理技術、グリッドサーチによる包括的なハイパーパラメータ最適化によるものである。
XGBoostに基づくSHAP分析と特徴重要度評価では、白血球数やRDWなどの重要な変数が強調され、死亡リスクに影響を与える臨床的要因に関する貴重な洞察が得られた。
この枠組みは、高リスクICU心不全患者を同定し、タイムリーかつインフォメーションな介入を通じて患者の結果を改善できる、臨床医に重要な支援を提供する。
Heart failure affects millions of people worldwide, significantly reducing quality of life and leading to high mortality rates. Despite extensive research, the relationship between heart failure and mortality rates among ICU patients is not fully understood, indicating the need for more accurate prediction models. This study analyzed data from 1,177 patients over 18 years old from the MIMIC-III database, identified using ICD-9 codes. Preprocessing steps included handling missing data, removing duplicates, treating skewness, and using oversampling techniques to address data imbalances. Through rigorous feature selection using Variance Inflation Factor (VIF), expert clinical input, and ablation studies, 46 key features were identified to enhance model performance. Our analysis compared several machine learning models, including Logistic Regression, Support Vector Machine (SVM), Random Forest, LightGBM, and XGBoost. XGBoost emerged as the superior model, achieving a test AUC-ROC of 0.9228 (95\% CI 0.8748 - 0.9613), significantly outperforming our previous work (AUC-ROC of 0.8766) and the best results reported in existing literature (AUC-ROC of 0.824). The improved model's success is attributed to advanced feature selection methods, robust preprocessing techniques, and comprehensive hyperparameter optimization through Grid-Search. SHAP analysis and feature importance evaluations based on XGBoost highlighted key variables like leucocyte count and RDW, providing valuable insights into the clinical factors influencing mortality risk. This framework offers significant support for clinicians, enabling them to identify high-risk ICU heart failure patients and improve patient outcomes through timely and informed interventions. | 翻訳日:2024-09-06 02:30:20 公開日:2024-09-03 |
# カモフラージュ物体検出のための周波数-空間絡み合い学習
Frequency-Spatial Entanglement Learning for Camouflaged Object Detection ( http://arxiv.org/abs/2409.01686v1 ) ライセンス: Link先を確認 | Yanguang Sun, Chunyan Xu, Jian Yang, Hanyu Xuan, Lei Luo, | (参考訳) カモフラージュされた物体検出はコンピュータビジョンにおいて多くの注目を集めている。
主な課題は、カモフラージュされた物体と空間領域の周囲との高度な類似性であり、識別が困難である。
既存の手法は、複雑な設計で空間特徴の識別能力を最大化することで画素類似性の影響を減らそうとしているが、空間領域における特徴の感度と局所性を無視することがしばしばあり、亜最適結果をもたらす。
本稿では、周波数領域と空間領域の表現を共同で探索し、周波数空間の絡み合い学習(FSEL)手法を導入することにより、この問題に対処する新しいアプローチを提案する。
本手法は,表現学習のためのETB(Entanglement Transformer Blocks)と,意味的拡張のためのジョイントドメイン知覚モジュールと,周波数領域と空間領域の機能統合のためのデュアルドメイン逆パーサから構成される。
具体的には、周波数自己アテンションを利用して、異なる周波数帯域間の関係を効果的に特徴づける一方、絡み合いフィードフォワードネットワークは、絡み合い学習を通じて異なるドメインの特徴間の情報相互作用を促進する。
広範囲な実験により、広く使われている3つのデータセットの総合的な量的および定性的な比較を通じて、21の最先端手法よりもFSELの方が優れていることを示した。
ソースコードは、https://github.com/CSYSI/FSEL.comで入手できる。
Camouflaged object detection has attracted a lot of attention in computer vision. The main challenge lies in the high degree of similarity between camouflaged objects and their surroundings in the spatial domain, making identification difficult. Existing methods attempt to reduce the impact of pixel similarity by maximizing the distinguishing ability of spatial features with complicated design, but often ignore the sensitivity and locality of features in the spatial domain, leading to sub-optimal results. In this paper, we propose a new approach to address this issue by jointly exploring the representation in the frequency and spatial domains, introducing the Frequency-Spatial Entanglement Learning (FSEL) method. This method consists of a series of well-designed Entanglement Transformer Blocks (ETB) for representation learning, a Joint Domain Perception Module for semantic enhancement, and a Dual-domain Reverse Parser for feature integration in the frequency and spatial domains. Specifically, the ETB utilizes frequency self-attention to effectively characterize the relationship between different frequency bands, while the entanglement feed-forward network facilitates information interaction between features of different domains through entanglement learning. Our extensive experiments demonstrate the superiority of our FSEL over 21 state-of-the-art methods, through comprehensive quantitative and qualitative comparisons in three widely-used datasets. The source code is available at: https://github.com/CSYSI/FSEL. | 翻訳日:2024-09-06 02:30:20 公開日:2024-09-03 |
# 高次元量子化予測のためのスパースPAC-Bayesianアプローチ
A sparse PAC-Bayesian approach for high-dimensional quantile prediction ( http://arxiv.org/abs/2409.01687v1 ) ライセンス: Link先を確認 | The Tien Mai, | (参考訳) 条件量子化を推定する堅牢な方法である量子回帰法は、計量学、統計学、機械学習などの分野において大きく進歩している。
共変量数がサンプルサイズを超える高次元環境では、ラッソのようなペナル化法がスパシティ問題に対処するために開発されている。
ベイズ的手法は、当初は非対称ラプラス確率によって量子レグレッションに結び付けられていたが、後続の分散の問題により、擬似的/スコア的可能性を含む新しいアプローチが導かれた。
本稿では,高次元量子化予測のための確率論的機械学習手法を提案する。
擬似ベイズ的フレームワークとスケールした学生tとランゲヴィン・モンテカルロを併用して効率的な計算を行う。
この手法は、PAC-Bayes境界を通じて、漸近的でないオラクルの不等式を確立する強力な理論的保証を示し、最小最大最適予測誤差と未知の空間への適応性を示す。
その効果はシミュレーションや実世界のデータを通じて検証され、そこでは確立された頻繁な手法やベイズ的手法と競合する。
Quantile regression, a robust method for estimating conditional quantiles, has advanced significantly in fields such as econometrics, statistics, and machine learning. In high-dimensional settings, where the number of covariates exceeds sample size, penalized methods like lasso have been developed to address sparsity challenges. Bayesian methods, initially connected to quantile regression via the asymmetric Laplace likelihood, have also evolved, though issues with posterior variance have led to new approaches, including pseudo/score likelihoods. This paper presents a novel probabilistic machine learning approach for high-dimensional quantile prediction. It uses a pseudo-Bayesian framework with a scaled Student-t prior and Langevin Monte Carlo for efficient computation. The method demonstrates strong theoretical guarantees, through PAC-Bayes bounds, that establish non-asymptotic oracle inequalities, showing minimax-optimal prediction error and adaptability to unknown sparsity. Its effectiveness is validated through simulations and real-world data, where it performs competitively against established frequentist and Bayesian techniques. | 翻訳日:2024-09-06 02:30:20 公開日:2024-09-03 |
# 微分プライベートカーネル密度推定
Differentially Private Kernel Density Estimation ( http://arxiv.org/abs/2409.01688v1 ) ライセンス: Link先を確認 | Erzhi Liu, Jerry Yao-Chieh Hu, Alex Reneau, Zhao Song, Han Liu, | (参考訳) カーネル密度推定(KDE)のための改良された差分法(DP)データ構造を導入し,プライバシ・ユーティリティ・トレードオフの改善だけでなく,事前結果よりも効率が向上した。
具体的には, 類似関数 $f$ (あるいは DP KDE) とプライベートデータセット $X \subset \mathbb{R}^d$ が与えられたとき, 我々の目標は,任意のクエリ $y\in\mathbb{R}^d$ に対して $\sum_{x \in X} f(x, y)$ を微分プライベートな方法で前処理することである。
f(x,y) =\| x - y \|_1$ に対する最も古いアルゴリズムは[Backurs, Lin, Mahabadi, Silwal, Tarnawski, ICLR 2024] によるノード汚染二分木である。
それらのアルゴリズムは、$O(nd)$スペースと$n=|X|$で前処理する時間を必要とする。
任意のクエリポイントに対して、クエリ時間は$d \log n$で、エラー保証は$(1+\alpha)$-approximationと$\epsilon^{-1} \alpha^{-0.5} d^{1.5} R \log^{1.5} n$である。
本稿では,過去最高の結果(Backurs, Lin, Mahabadi, Silwal, Tarnawski, ICLR 2024)を3つの面で改善する。
-近似比を$\alpha$から1に改善する。
-$\alpha^{-0.5}$でエラー依存を減らす。
技術的観点から, 探索木構築法は, 以前の研究(Backurs, Lin, Mahabadi, Silwal, Tarnawski, ICLR 2024)とは異なる。
以前の作業では、各クエリに対して、答えは$\alpha^{-1} \log n$ numberに分割され、それぞれがインターバルツリーカウントにおける$\log n$値の和から導かれる。
対照的に、我々は木を別々に構築し、答えを$\log n$数に分割し、それぞれが2つの距離値、2つのカウント値、および$y$自身からなるスマートな組み合わせである。
私たちは、木の構造が独立した関心を持つかもしれないと信じています。
We introduce a refined differentially private (DP) data structure for kernel density estimation (KDE), offering not only improved privacy-utility tradeoff but also better efficiency over prior results. Specifically, we study the mathematical problem: given a similarity function $f$ (or DP KDE) and a private dataset $X \subset \mathbb{R}^d$, our goal is to preprocess $X$ so that for any query $y\in\mathbb{R}^d$, we approximate $\sum_{x \in X} f(x, y)$ in a differentially private fashion. The best previous algorithm for $f(x,y) =\| x - y \|_1$ is the node-contaminated balanced binary tree by [Backurs, Lin, Mahabadi, Silwal, and Tarnawski, ICLR 2024]. Their algorithm requires $O(nd)$ space and time for preprocessing with $n=|X|$. For any query point, the query time is $d \log n$, with an error guarantee of $(1+\alpha)$-approximation and $\epsilon^{-1} \alpha^{-0.5} d^{1.5} R \log^{1.5} n$. In this paper, we improve the best previous result [Backurs, Lin, Mahabadi, Silwal, and Tarnawski, ICLR 2024] in three aspects: - We reduce query time by a factor of $\alpha^{-1} \log n$. - We improve the approximation ratio from $\alpha$ to 1. - We reduce the error dependence by a factor of $\alpha^{-0.5}$. From a technical perspective, our method of constructing the search tree differs from previous work [Backurs, Lin, Mahabadi, Silwal, and Tarnawski, ICLR 2024]. In prior work, for each query, the answer is split into $\alpha^{-1} \log n$ numbers, each derived from the summation of $\log n$ values in interval tree countings. In contrast, we construct the tree differently, splitting the answer into $\log n$ numbers, where each is a smart combination of two distance values, two counting values, and $y$ itself. We believe our tree structure may be of independent interest. | 翻訳日:2024-09-06 02:30:20 公開日:2024-09-03 |
# 博物館展示物のきめ細粒度・構造的視覚的理解のためのCLIP
Taming CLIP for Fine-grained and Structured Visual Understanding of Museum Exhibits ( http://arxiv.org/abs/2409.01690v1 ) ライセンス: Link先を確認 | Ada-Astrid Balauca, Danda Pani Paudel, Kristina Toutanova, Luc Van Gool, | (参考訳) CLIPは、自然言語記述のコンテキストでイメージを理解し、ニュアンスされたタスクを実行するために、強力で広く使用されるツールである。
しかし、一般的な性質のため、アプリケーション固有の細粒度で構造化された理解を提供していない。
本研究は,博物館展示の視覚的理解という表形式で,きめ細かな構造化されたCLIPに適応することを目的としている。
このような理解を容易にするには
(a)200K以上の画像テーブル対のデータセットを収集し、キュレートし、ベンチマークする。
(b)入力画像の表出力を予測する手法を開発する。
私たちのデータセットは、パブリックドメインで最初のものです。
同時に,CLIPの強力な表現を微粒化・表層的理解に活用する手法が提案されている。
提案手法(MUZE)は,CLIPのイメージ埋め込みを変換器を用いた解析ネットワーク(parseNet)を用いて表構造にマッピングする方法を学習する。
より具体的には、parseNetは、入力画像の既知の属性値ペアからコンテキストを統合しながら、属性値の欠落を予測できる。
これにより精度が大幅に向上することを示す。
提案手法が博物館展示のきめ細やかで構造化された理解に有効であることを示す。
私たちのデータセットとソースコードは、https://github.com/insait-institute/MUZEで確認できます。
CLIP is a powerful and widely used tool for understanding images in the context of natural language descriptions to perform nuanced tasks. However, it does not offer application-specific fine-grained and structured understanding, due to its generic nature. In this work, we aim to adapt CLIP for fine-grained and structured -- in the form of tabular data -- visual understanding of museum exhibits. To facilitate such understanding we (a) collect, curate, and benchmark a dataset of 200K+ image-table pairs, and (b) develop a method that allows predicting tabular outputs for input images. Our dataset is the first of its kind in the public domain. At the same time, the proposed method is novel in leveraging CLIP's powerful representations for fine-grained and tabular understanding. The proposed method (MUZE) learns to map CLIP's image embeddings to the tabular structure by means of a proposed transformer-based parsing network (parseNet). More specifically, parseNet enables prediction of missing attribute values while integrating context from known attribute-value pairs for an input image. We show that this leads to significant improvement in accuracy. Through exhaustive experiments, we show the effectiveness of the proposed method on fine-grained and structured understanding of museum exhibits, by achieving encouraging results in a newly established benchmark. Our dataset and source-code can be found at: https://github.com/insait-institute/MUZE | 翻訳日:2024-09-06 02:30:20 公開日:2024-09-03 |
# 3次元部分点がSAMと出会う時: スパースラベルによる歯点雲の分別
When 3D Partial Points Meets SAM: Tooth Point Cloud Segmentation with Sparse Labels ( http://arxiv.org/abs/2409.01691v1 ) ライセンス: Link先を確認 | Yifan Liu, Wuyang Li, Cheng Wang, Hui Chen, Yixuan Yuan, | (参考訳) 歯点クラウドセグメンテーションは多くの矯正用アプリケーションにおいて基本的なタスクである。
現在の研究は主に、高価で面倒な手動のポイントワイドアノテーションを必要とする完全な教師付き学習に焦点を当てている。
近年では、3Dセグメンテーションに弱いラベルを使うことや有望な結果を得ることが提案されているが、ラベルが極めて希薄な場合に失敗する傾向にある。
本稿では,Segment Anything Model (SAM) の強力なセグメンテーション能力に触発された SAMTooth というフレームワークを提案する。
SAMの適切なポイントプロンプトを自動生成する手法として,信頼を意識したフィルタリングによってカテゴリの粗い予測を集約する,信頼を意識したプロンプト生成手法を提案する。
さらに、3次元特徴学習を支援するためにSAMの出力の構造的および形状的手がかりを完全に活用するために、SAMの生成された歯面を3次元空間に再投影するマスク誘導表現学習を推進し、異なる歯の点を異なる表現を持つように制約する。
このフレームワークの有効性を実証するために,我々は公開データセット上で実験を行い,0.1\%のアノテーション(歯1点)で驚くほどの精度で検索し,最近の弱い教師付き手法を大きなマージンで上回り,その性能は最近の完全教師付き手法に匹敵するものであり,スパースラベルによるSAMを3次元知覚タスクに適用する有意義な可能性を示している。
コードはhttps://github.com/CUHK-AIM-Group/SAMToothで入手できる。
Tooth point cloud segmentation is a fundamental task in many orthodontic applications. Current research mainly focuses on fully supervised learning which demands expensive and tedious manual point-wise annotation. Although recent weakly-supervised alternatives are proposed to use weak labels for 3D segmentation and achieve promising results, they tend to fail when the labels are extremely sparse. Inspired by the powerful promptable segmentation capability of the Segment Anything Model (SAM), we propose a framework named SAMTooth that leverages such capacity to complement the extremely sparse supervision. To automatically generate appropriate point prompts for SAM, we propose a novel Confidence-aware Prompt Generation strategy, where coarse category predictions are aggregated with confidence-aware filtering. Furthermore, to fully exploit the structural and shape clues in SAM's outputs for assisting the 3D feature learning, we advance a Mask-guided Representation Learning that re-projects the generated tooth masks of SAM into 3D space and constrains these points of different teeth to possess distinguished representations. To demonstrate the effectiveness of the framework, we conduct experiments on the public dataset and surprisingly find with only 0.1\% annotations (one point per tooth), our method can surpass recent weakly supervised methods by a large margin, and the performance is even comparable to the recent fully-supervised methods, showcasing the significant potential of applying SAM to 3D perception tasks with sparse labels. Code is available at https://github.com/CUHK-AIM-Group/SAMTooth. | 翻訳日:2024-09-06 02:30:20 公開日:2024-09-03 |
# USTC-KXDIGIT System Description for ASVspoof5 Challenge
USTC-KXDIGIT System Description for ASVspoof5 Challenge ( http://arxiv.org/abs/2409.01695v1 ) ライセンス: Link先を確認 | Yihao Chen, Haochen Wu, Nan Jiang, Xiang Xia, Qing Gu, Yunqi Hao, Pengfei Cai, Yu Guan, Jialong Wang, Weilin Xie, Lei Fang, Sian Fang, Yan Song, Wu Guo, Lin Liu, Minqiang Xu, | (参考訳) 本稿では,ASVspoof5 Challenge for Track 1(音声ディープフェイク検出)とTrack 2(音声ロバスト自動話者検証,SASV)に提出されたUSTC-KXDIGITシステムについて述べる。
トラック1は、潜在的な処理アルゴリズムから様々な技術的品質を示し、オープン条件とクローズ条件の両方を含んでいる。
これらの条件に対して,本システムは,フロントエンド特徴抽出器とバックエンド分類器のカスケードから構成される。
本研究は,バックエンド分類モデルの広範な埋め込み技術と一般化に焦点をあてる。
具体的には, 組込み工学は, 閉鎖条件と開放条件にそれぞれ使用する自己教師付きモデルから手作りの特徴と音声表現をベースとしている。
種々の逆境条件下でのスプーフ攻撃を検出するために,強化訓練セットを用いて複数のシステムを訓練した。
さらに、音声変換技術を用いて、実際の音声から偽音声を合成し、合成アルゴリズムを強化した。
異なるモデルアーキテクチャで学習した相補的な情報を活用するために,異なるシステムからのアクティベーションアンサンブルと融合スコアを用いて,スプーフ検出のための最終的な判定スコアを得た。
評価段階において,提案手法は閉条件で0.3948 minDCF, 14.33% EER, オープン条件で0.0750 minDCF, 2.59% EERを達成し, 対向条件下でのシステムの堅牢性を実証した。
トラック2では、トラック1からのCMシステムの使用を継続し、CNNベースのASVシステムと融合した。
この手法は, 閉条件では0.2814 min-aDCF, 開条件では0.0756 min-aDCFを達成し, SASVシステムでは優れた性能を示した。
This paper describes the USTC-KXDIGIT system submitted to the ASVspoof5 Challenge for Track 1 (speech deepfake detection) and Track 2 (spoofing-robust automatic speaker verification, SASV). Track 1 showcases a diverse range of technical qualities from potential processing algorithms and includes both open and closed conditions. For these conditions, our system consists of a cascade of a frontend feature extractor and a back-end classifier. We focus on extensive embedding engineering and enhancing the generalization of the back-end classifier model. Specifically, the embedding engineering is based on hand-crafted features and speech representations from a self-supervised model, used for closed and open conditions, respectively. To detect spoof attacks under various adversarial conditions, we trained multiple systems on an augmented training set. Additionally, we used voice conversion technology to synthesize fake audio from genuine audio in the training set to enrich the synthesis algorithms. To leverage the complementary information learned by different model architectures, we employed activation ensemble and fused scores from different systems to obtain the final decision score for spoof detection. During the evaluation phase, the proposed methods achieved 0.3948 minDCF and 14.33% EER in the close condition, and 0.0750 minDCF and 2.59% EER in the open condition, demonstrating the robustness of our submitted systems under adversarial conditions. In Track 2, we continued using the CM system from Track 1 and fused it with a CNN-based ASV system. This approach achieved 0.2814 min-aDCF in the closed condition and 0.0756 min-aDCF in the open condition, showcasing superior performance in the SASV system. | 翻訳日:2024-09-06 02:30:20 公開日:2024-09-03 |
# モデル反転攻撃に対するスキップ接続の脆弱性について
On the Vulnerability of Skip Connections to Model Inversion Attacks ( http://arxiv.org/abs/2409.01696v1 ) ライセンス: Link先を確認 | Jun Hao Koh, Sy-Tuyen Ho, Ngoc-Bao Nguyen, Ngai-man Cheung, | (参考訳) スキップ接続は、CNNやViTといった現代のディープニューラルネットワーク(DNN)の基本的なアーキテクチャ設計である。
モデル性能は大幅に向上するが、モデルの悪用を通じてプライベートトレーニングデータを再構築することを目的としたプライバシー攻撃である、モデルインバージョン(MI)攻撃への接続をスキップすることに関連する脆弱性を特定する。
本稿では,DNNアーキテクチャがMIに与える影響を理解するための先駆的な研究として,MI上でのスキップ接続の影響について検討する。
以下に発見する。
1)スキップ接続はMI攻撃を強化し、データのプライバシーを侵害する。
2)最終段階のスキップ接続は攻撃に最も重要である。
3) RepVGGは、推論時アーキテクチャにおけるスキップ接続を除去するアプローチであり、脆弱性をMI攻撃に軽減することはできなかった。
4) この結果に基づき, 初めてMIレジリエントアーキテクチャの設計を提案する。
ベルとホイッスルがなければ、我々のMIレジリエントアーキテクチャはMIロバストネスにおけるSOTA(State-of-the-art)ディフェンス法より優れることを示す。
さらに,我々のMIレジリエントアーキテクチャは,既存のMI防御手法を補完するものである。
私たちのプロジェクトはhttps://Pillowkoh.github.io/projects/RoLSS/で利用可能です。
Skip connections are fundamental architecture designs for modern deep neural networks (DNNs) such as CNNs and ViTs. While they help improve model performance significantly, we identify a vulnerability associated with skip connections to Model Inversion (MI) attacks, a type of privacy attack that aims to reconstruct private training data through abusive exploitation of a model. In this paper, as a pioneer work to understand how DNN architectures affect MI, we study the impact of skip connections on MI. We make the following discoveries: 1) Skip connections reinforce MI attacks and compromise data privacy. 2) Skip connections in the last stage are the most critical to attack. 3) RepVGG, an approach to remove skip connections in the inference-time architectures, could not mitigate the vulnerability to MI attacks. 4) Based on our findings, we propose MI-resilient architecture designs for the first time. Without bells and whistles, we show in extensive experiments that our MI-resilient architectures can outperform state-of-the-art (SOTA) defense methods in MI robustness. Furthermore, our MI-resilient architectures are complementary to existing MI defense methods. Our project is available at https://Pillowkoh.github.io/projects/RoLSS/ | 翻訳日:2024-09-06 02:16:32 公開日:2024-09-03 |
# 制約付き組合せ最適化のための実現可能なテンソルネットワークのクイック設計
Quick design of feasible tensor networks for constrained combinatorial optimization ( http://arxiv.org/abs/2409.01699v1 ) ライセンス: Link先を確認 | Hyakka Nakada, Kotaro Tanahashi, Shu Tanaka, | (参考訳) 本研究では,テンソルネットワークを用いた制約付き組合せ最適化手法を提案する。
量子ゲートを用いた組合せ最適化法、例えば量子近似最適化アルゴリズムは、主に研究されている。
しかし、誤差や量子ビット数の制限により、大規模な組合せ最適化問題に対処することができない。
あるいは、量子状態を大まかにシミュレートできるテンソルネットワークを用いて、より大規模な問題を解決する試みがなされている。
近年,実用化のための制約付き組合せ最適化問題に対して,テンソルネットワークが適用されている。
制約を満たす特定のテンソルネットワークをサンプリングするために準備することにより、ペナルティ関数の方法なしで実現可能な解を探すことができる。
これまでの研究は、U(1)ゲージスキームや高次元格子モデルのような深い物理学に基づいてきた。
本研究では,このような具体的な知識を使わずに,基本数学を用いて実現可能なテンソルネットワークを設計する。
1つのアプローチは、nilpotent-matrix操作でテンソルネットワークを構築することである。
2つ目は代数的にテンソルパラメータを決定することである。
提案手法の原理的検証のために,施設位置問題のための実現可能なテンソルネットワークを構築し,仮想時間進化を行った。
進化の過程で実現可能な解が得られ、最終的には最適解へと導かれた。
提案手法は,制約付き組合せ最適化問題に対する実現可能なテンソルネットワークの発見を容易にすることが期待されている。
In this study, we propose a new method for constrained combinatorial optimization using tensor networks. Combinatorial optimization methods employing quantum gates, such as quantum approximate optimization algorithm, have been intensively investigated. However, their limitations in errors and the number of qubits prevent them from handling large-scale combinatorial optimization problems. Alternatively, attempts have been made to solve larger-scale problems using tensor networks that can approximately simulate quantum states. In recent years, tensor networks have been applied to constrained combinatorial optimization problems for practical applications. By preparing a specific tensor network to sample states that satisfy constraints, feasible solutions can be searched for without the method of penalty functions. Previous studies have been based on profound physics, such as U(1) gauge schemes and high-dimensional lattice models. In this study, we devise to design feasible tensor networks using elementary mathematics without such a specific knowledge. One approach is to construct tensor networks with nilpotent-matrix manipulation. The second is to algebraically determine tensor parameters. For the principle verification of the proposed method, we constructed a feasible tensor network for facility location problem and conducted imaginary time evolution. We found that feasible solutions were obtained during the evolution, ultimately leading to the optimal solution. The proposed method is expected to facilitate the discovery of feasible tensor networks for constrained combinatorial optimization problems. | 翻訳日:2024-09-06 02:16:32 公開日:2024-09-03 |
# 一般OCR理論:統一エンドツーエンドモデルによるOCR-2.0に向けて
General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model ( http://arxiv.org/abs/2409.01704v1 ) ライセンス: Link先を確認 | Haoran Wei, Chenglong Liu, Jinyue Chen, Jia Wang, Lingyu Kong, Yanming Xu, Zheng Ge, Liang Zhao, Jianjian Sun, Yuang Peng, Chunrui Han, Xiangyu Zhang, | (参考訳) 従来のOCRシステム (OCR-1.0) は、人造光学文字のインテリジェントな処理の需要が高まっているため、人々の利用を満足できない傾向にある。
本稿では,すべての人工光学信号(例えば,平文,数学・分子式,表,チャート,シート音楽,幾何学的形状など)を「文字」と総称し,OCR-2.0の到来を促進するための優れたモデルであるGOTとともに一般OCR理論を提案する。
GOTは580Mパラメータを持ち、高圧縮エンコーダと長文デコーダからなる統一的でエレガントでエンドツーエンドのモデルである。
OCR-2.0モデルとして、GOTは様々なOCRタスクで上記の「キャラクタ」を処理できる。
入力側では、このモデルはスライスと全ページスタイルで一般的に使用されるシーンスタイルと文書スタイルのイメージをサポートする。
出力側では、GOTは簡単なプロンプトでプレーンまたはフォーマットされた結果(markdown/tikz/smiles/kern)を生成することができる。
さらに、モデルはインタラクティブなOCR機能、すなわち座標や色によって誘導される領域レベルの認識を楽しむ。
さらに,動的分解能と多ページOCR技術をGOTに適用し,実用性の向上を図る。
実験では、モデルの優位性を証明するのに十分な結果が得られる。
Traditional OCR systems (OCR-1.0) are increasingly unable to meet people's usage due to the growing demand for intelligent processing of man-made optical characters. In this paper, we collectively refer to all artificial optical signals (e.g., plain texts, math/molecular formulas, tables, charts, sheet music, and even geometric shapes) as "characters" and propose the General OCR Theory along with an excellent model, namely GOT, to promote the arrival of OCR-2.0. The GOT, with 580M parameters, is a unified, elegant, and end-to-end model, consisting of a high-compression encoder and a long-contexts decoder. As an OCR-2.0 model, GOT can handle all the above "characters" under various OCR tasks. On the input side, the model supports commonly used scene- and document-style images in slice and whole-page styles. On the output side, GOT can generate plain or formatted results (markdown/tikz/smiles/kern) via an easy prompt. Besides, the model enjoys interactive OCR features, i.e., region-level recognition guided by coordinates or colors. Furthermore, we also adapt dynamic resolution and multi-page OCR technologies to GOT for better practicality. In experiments, we provide sufficient results to prove the superiority of our model. | 翻訳日:2024-09-06 02:16:32 公開日:2024-09-03 |
# ノイズレス量子回路の古典的可観測性の推定
Classically estimating observables of noiseless quantum circuits ( http://arxiv.org/abs/2409.01706v1 ) ライセンス: Link先を確認 | Armando Angrisani, Alexander Schmidhuber, Manuel S. Rudolph, M. Cerezo, Zoë Holmes, Hsin-Yuan Huang, | (参考訳) 本稿では,全接続性を含む全ての回路アーキテクチャおよび深さの量子回路上での任意の観測値の期待値を推定するための古典的アルゴリズムを提案する。
本手法は,各回路層に1キュービット回転の下での計測不変量を持つアーキテクチャにおいて,各回路上の小さな誤差$\varepsilon$を,小さな分数$\delta$を除いて達成する。
計算時間は qubit count と circuit depth の多項式で、任意の小さな定数 $\varepsilon, \delta$, and quasi-polynomial for inverse-polynomially small $\varepsilon, \delta$ である。
非古典的にシミュレート可能な入力状態やオブザーバブルの場合、予測値は、我々のアルゴリズムを関連する状態の古典的な影またはオブザーバブルで拡張することで推定できる。
提案手法はハイゼンベルク進化下でのパウリパス法を利用する。
先行研究はノイズの多い量子回路に限られるが、ノイズのない状態において古典的なシミュラビリティを確立する。
アーキテクチャにおけるほとんどの量子回路はカオス的かつ局所的なスクランブルな振る舞いを示すので、我々の研究は、そのような量子力学の観測可能量の推定が古典的に全ての測地で可能であることを証明している。
We present a classical algorithm for estimating expectation values of arbitrary observables on most quantum circuits across all circuit architectures and depths, including those with all-to-all connectivity. We prove that for any architecture where each circuit layer is equipped with a measure invariant under single-qubit rotations, our algorithm achieves a small error $\varepsilon$ on all circuits except for a small fraction $\delta$. The computational time is polynomial in qubit count and circuit depth for any small constant $\varepsilon, \delta$, and quasi-polynomial for inverse-polynomially small $\varepsilon, \delta$. For non-classically-simulable input states or observables, the expectation values can be estimated by augmenting our algorithm with classical shadows of the relevant state or observable. Our approach leverages a Pauli-path method under Heisenberg evolution. While prior works are limited to noisy quantum circuits, we establish classical simulability in noiseless regimes. Given that most quantum circuits in an architecture exhibit chaotic and locally scrambling behavior, our work demonstrates that estimating observables of such quantum dynamics is classically tractable across all geometries. | 翻訳日:2024-09-06 02:16:32 公開日:2024-09-03 |
# 量子ビザンチン協定、全情報対応へ
Quantum Byzantine Agreement Against Full-information Adversary ( http://arxiv.org/abs/2409.01707v1 ) ライセンス: Link先を確認 | Longcheng Li, Xiaoming Sun, Jiadong Zhu, | (参考訳) プライベートチャネルモデルで設計された古典的ビザンチン合意プロトコルが与えられると、完全な情報反転を効果的に処理できる量子合意プロトコルを構築することが可能であることを示す。
特に、両方のプロトコルは、等価レベルのレジリエンス、ラウンド複雑性、通信複雑性を持っている。
古典的なプライベートチャネルのシナリオでは、参加者は古典的なビットの交換に限られており、相手は交換されたメッセージの知識を欠いている。
対照的に、量子フル情報設定では、参加者はキュービットを交換でき、相手はシステムの状態とメッセージの包括的かつ正確な可視性を持っている。
量子化フレームワークから古典的フレームワークへの還元を実証することにより、敵の持つセキュリティ問題に対処する上で、量子プロトコルの強度と柔軟性を示す。
これは、効率やレジリエンスを損なうことなく、量子原理を活用してセキュリティ対策を改善する可能性を強調している。
本手法の適用により,全情報モデルにおける非同期ビザンチン合意プロトコルのラウンド複雑性における量子的優位性を示す。
フル情報モデルにおいて、任意の古典的プロトコルは、レジリエンス $t=\Theta(n)$ のとき、フェイルストップの敵に対してさえも確率 1 とのビザンチン合意を解くのに$\Omega(n)$ ラウンドを必要とすることが知られている。
量子プロトコルが$O(1)$ラウンドを達成できることを示す。
(i) フェイルストップ相手に対するレジリエンス$t<n/2$
(ii)レジリエンス$t<n/(3+\epsilon)$で、任意の定数$\epsilon>0$に対してビザンチン逆数に対して、従って古典的な下界を超える。
We exhibit that, when given a classical Byzantine agreement protocol designed in the private-channel model, it is feasible to construct a quantum agreement protocol that can effectively handle a full-information adversary. Notably, both protocols have equivalent levels of resilience, round complexity, and communication complexity. In the classical private-channel scenario, participating players are limited to exchanging classical bits, with the adversary lacking knowledge of the exchanged messages. In contrast, in the quantum full-information setting, participating players can exchange qubits, while the adversary possesses comprehensive and accurate visibility into the system's state and messages. By showcasing the reduction from quantum to classical frameworks, this paper demonstrates the strength and flexibility of quantum protocols in addressing security challenges posed by adversaries with increased visibility. It underscores the potential of leveraging quantum principles to improve security measures without compromising on efficiency or resilience. By applying our reduction, we demonstrate quantum advantages in the round complexity of asynchronous Byzantine agreement protocols in the full-information model. It is well known that in the full-information model, any classical protocol requires $\Omega(n)$ rounds to solve Byzantine agreement with probability one even against Fail-stop adversary when resilience $t=\Theta(n)$. We show that quantum protocols can achieve $O(1)$ rounds (i) with resilience $t<n/2$ against a Fail-stop adversary, and (ii) with resilience $t<n/(3+\epsilon)$ against a Byzantine adversary for any constant $\epsilon>0$, therefore surpassing the classical lower bound. | 翻訳日:2024-09-06 02:16:32 公開日:2024-09-03 |
# 混合精密カーネルリッジ回帰を用いた多変量ゲノムワイド関連研究からの遺伝的エピスタシスの獲得に向けて
Toward Capturing Genetic Epistasis From Multivariate Genome-Wide Association Studies Using Mixed-Precision Kernel Ridge Regression ( http://arxiv.org/abs/2409.01712v1 ) ライセンス: Link先を確認 | Hatem Ltaief, Rabab Alomairy, Qinglei Cao, Jie Ren, Lotfi Slim, Thorsten Kurth, Benedikt Dorschner, Salim Bougouffa, Rached Abdelkhalak, David E. Keyes, | (参考訳) 我々は、[FP64/FP32/FP16/INT8,FP64/FP32/FP16/FP8/INT8]のNVIDIA [Ampere,Hopper] GPUにおけるテンソルコア性能の幅を広げ、UK BioBankの305K患者の出力精度保存混合精度計算の性能を高める。
低精度GPU演算によるデータ移動ゲインの強化によるタイル中心適応精度線形代数技術
GWASのKernel Ridge Regression(KRR)技術の中核には、集団、遺伝子型、表現型の吸引次元へのスケーリングを抑制する計算バウンドな立方体複素行列演算がある。
我々は、Euclidean distances の計算を再設計し、対称性を利用してINT8テンソルコアを動作させることにより、KRR行列の生成を加速する。我々は、新しい4精度のColesky-based solverを、ほぼフルアルプスシステム上で1.805の混合精度ExaOp/sで、最先端CPUのみのREGENIE GWASソフトウェアを5桁の精度で上回るようにすることで、正規化されたKRRシステムの解を加速する。
We exploit the widening margin in tensor-core performance between [FP64/FP32/FP16/INT8,FP64/FP32/FP16/FP8/INT8] on NVIDIA [Ampere,Hopper] GPUs to boost the performance of output accuracy-preserving mixed-precision computation of Genome-Wide Association Studies (GWAS) of 305K patients from the UK BioBank, the largest-ever GWAS cohort studied for genetic epistasis using a multivariate approach. Tile-centric adaptive-precision linear algebraic techniques motivated by reducing data motion gain enhanced significance with low-precision GPU arithmetic. At the core of Kernel Ridge Regression (KRR) techniques for GWAS lie compute-bound cubic-complexity matrix operations that inhibit scaling to aspirational dimensions of the population, genotypes, and phenotypes. We accelerate KRR matrix generation by redesigning the computation for Euclidean distances to engage INT8 tensor cores while exploiting symmetry.We accelerate solution of the regularized KRR systems by deploying a new four-precision Cholesky-based solver, which, at 1.805 mixed-precision ExaOp/s on a nearly full Alps system, outperforms the state-of-the-art CPU-only REGENIE GWAS software by five orders of magnitude. | 翻訳日:2024-09-06 02:16:32 公開日:2024-09-03 |
# デコードオートエンコーダによる時系列データ外乱の解釈
Interpreting Outliers in Time Series Data through Decoding Autoencoder ( http://arxiv.org/abs/2409.01713v1 ) ライセンス: Link先を確認 | Patrick Knab, Sascha Marton, Christian Bartelt, Robert Fuder, | (参考訳) 外乱検出は様々な分野で重要な分析ツールである。
製造のような重要なシステムでは、故障した異常な異常検知はコストがかかり、安全性が損なわれる。
したがって、このような環境で不透明なモデルをデプロイする際には、説明可能な人工知能(XAI)が必要である。
本研究は、ドイツの自動車供給産業における時系列データの製造に焦点をあてる。
我々はオートエンコーダを用いて時系列全体を圧縮し,その潜在特徴に異常検出技術を適用する。
外れやすい解釈のために、我々は
i) オートエンコーダのエンコーダに広く使われているXAI技術を採用する。
また、
(II) AEE, Aggregated Explanatory Ensembleを提案する。これは、複数のXAI技法の説明を単一のより表現力のある解釈に融合させる新しいアプローチである。
解説の評価のため。
(3)エンコーダの説明の質を定量的に測定する手法を提案する。
さらに、ドメインの専門知識を用いて、外部説明の有効性を質的に評価する。
Outlier detection is a crucial analytical tool in various fields. In critical systems like manufacturing, malfunctioning outlier detection can be costly and safety-critical. Therefore, there is a significant need for explainable artificial intelligence (XAI) when deploying opaque models in such environments. This study focuses on manufacturing time series data from a German automotive supply industry. We utilize autoencoders to compress the entire time series and then apply anomaly detection techniques to its latent features. For outlier interpretation, we (i) adopt widely used XAI techniques to the autoencoder's encoder. Additionally, (ii) we propose AEE, Aggregated Explanatory Ensemble, a novel approach that fuses explanations of multiple XAI techniques into a single, more expressive interpretation. For evaluation of explanations, (iii) we propose a technique to measure the quality of encoder explanations quantitatively. Furthermore, we qualitatively assess the effectiveness of outlier explanations with domain expertise. | 翻訳日:2024-09-06 02:16:32 公開日:2024-09-03 |
# ACCESS-FL: 安定したフェデレーション学習ネットワークにおける効率的なセキュアな集約のためのアジャイルコミュニケーションと計算
ACCESS-FL: Agile Communication and Computation for Efficient Secure Aggregation in Stable Federated Learning Networks ( http://arxiv.org/abs/2409.01722v1 ) ライセンス: Link先を確認 | Niousha Nazemi, Omid Tavallaie, Shuaijun Chen, Anna Maria Mandalario, Kanchana Thilakarathna, Ralph Holz, Hamed Haddadi, Albert Y. Zomaya, | (参考訳) Federated Learning(FL)は、プライバシを意識したアプリケーション用に設計された、有望な分散学習フレームワークである。
FLはクライアントのデータを共有せずにクライアントデバイス上でモデルをトレーニングし、モデル更新を集約することでサーバ上でグローバルモデルを生成する。
従来のFLは、平易なモデル更新がサーバに送信されたとき、機密性の高いクライアントデータを露出するリスクにアプローチする。
GoogleのSecure Aggregation(SecAgg)プロトコルは、クライアントのドロップアウトを伴う、誠実だが正確で敵対的なシナリオにおいて、ダブルマスキング技術、シークレット共有、暗号化計算を使用することによって、この脅威に対処する。
しかし、アクティブな敵がいないシナリオでは、SecAggの計算・通信コストはクライアントの数を増やすことで著しく増大する。
本稿では,クライアントのドロップアウト率に制限のある安定したFLネットワークにおいて,通信・計算効率の高いセキュアアグリゲーション手法であるACCESS-FLを提案する。
ACCESS-FLは、2つのクライアント間で共有秘密を生成し、二重マスキング、秘密共有、暗号計算を不要にすることで、計算/通信コストを一定レベル(ネットワークサイズに依存しない)に削減する。
ACCESS-FLの性能を評価するため,提案手法の有効性を検証するために,MNIST,FMNIST,CIFARデータセットを用いて実験を行った。
その結果,提案手法は, SecAgg や SecAgg+ と比較して, 計算と通信のオーバーヘッドを著しく低減することがわかった。
Federated Learning (FL) is a promising distributed learning framework designed for privacy-aware applications. FL trains models on client devices without sharing the client's data and generates a global model on a server by aggregating model updates. Traditional FL approaches risk exposing sensitive client data when plain model updates are transmitted to the server, making them vulnerable to security threats such as model inversion attacks where the server can infer the client's original training data from monitoring the changes of the trained model in different rounds. Google's Secure Aggregation (SecAgg) protocol addresses this threat by employing a double-masking technique, secret sharing, and cryptography computations in honest-but-curious and adversarial scenarios with client dropouts. However, in scenarios without the presence of an active adversary, the computational and communication cost of SecAgg significantly increases by growing the number of clients. To address this issue, in this paper, we propose ACCESS-FL, a communication-and-computation-efficient secure aggregation method designed for honest-but-curious scenarios in stable FL networks with a limited rate of client dropout. ACCESS-FL reduces the computation/communication cost to a constant level (independent of the network size) by generating shared secrets between only two clients and eliminating the need for double masking, secret sharing, and cryptography computations. To evaluate the performance of ACCESS-FL, we conduct experiments using the MNIST, FMNIST, and CIFAR datasets to verify the performance of our proposed method. The evaluation results demonstrate that our proposed method significantly reduces computation and communication overhead compared to state-of-the-art methods, SecAgg and SecAgg+. | 翻訳日:2024-09-06 02:16:32 公開日:2024-09-03 |
# 4D-CAT:Systoleおよびdiastoleからの4D冠状動脈樹の合成
4D-CAT: Synthesis of 4D Coronary Artery Trees from Systole and Diastole ( http://arxiv.org/abs/2409.01725v1 ) ライセンス: Link先を確認 | Daosong Hu, Ruomeng Wang, Liang Zhao, Mingyue Cui, Song Ding, Kai Huang, | (参考訳) CT画像から再構成した3次元血管モデルが医学的診断に広く用いられている。
異なる段階において、心臓の鼓動は血管の変形を引き起こし、血管のイメージング状態と偽陽性の診断結果をもたらす。
4Dモデルは完全な心臓循環をシミュレートすることができる。
コントラスト剤注入の投与限界のため, 有限位相イメージングにより4次元冠状動脈木を合成することが重要である。
本稿では,4次元冠状動脈木を生成する方法を提案する。この方法では,シトールを変形場予測によってダイアストルにマッピングし,タイムライン上で補間し,点の運動軌跡を求める。
具体的には、中心線は容器を表現し、立方体に基づくソートとニューラルネットワークを用いて変形場を推論するために用いられる。
中心点の変形場に基づいて隣接容器点を集約補間し、異なる位相の変位ベクトルを得る。
最後に,非剛性血管点の登録と4次元冠状動脈の発生について実験により検証した。
The three-dimensional vascular model reconstructed from CT images is widely used in medical diagnosis. At different phases, the beating of the heart can cause deformation of vessels, resulting in different vascular imaging states and false positive diagnostic results. The 4D model can simulate a complete cardiac cycle. Due to the dose limitation of contrast agent injection in patients, it is valuable to synthesize a 4D coronary artery trees through finite phases imaging. In this paper, we propose a method for generating a 4D coronary artery trees, which maps the systole to the diastole through deformation field prediction, interpolates on the timeline, and the motion trajectory of points are obtained. Specifically, the centerline is used to represent vessels and to infer deformation fields using cube-based sorting and neural networks. Adjacent vessel points are aggregated and interpolated based on the deformation field of the centerline point to obtain displacement vectors of different phases. Finally, the proposed method is validated through experiments to achieve the registration of non-rigid vascular points and the generation of 4D coronary trees. | 翻訳日:2024-09-06 02:16:32 公開日:2024-09-03 |
# マハラノビス距離を用いた多視点移動による多視点集団位置推定
Mahalanobis Distance-based Multi-view Optimal Transport for Multi-view Crowd Localization ( http://arxiv.org/abs/2409.01726v1 ) ライセンス: Link先を確認 | Qi Zhang, Kaiyi Zhang, Antoni B. Chan, Hui Huang, | (参考訳) マルチビューの観客定位は、現場のすべての人々の地上位置を予測する。
典型的な方法では、まず地上平面上の群集密度マップを推定し、次に群集の位置を求める。
しかし, 既存手法の性能は, 人口密度マップの曖昧さによって制限され, 局所的なピークを滑らかにすることができる。
密度マップ監視の弱点を軽減するため, 単一イメージの群集局所化タスクにおいて, 最適輸送に基づく点監督手法が提案されているが, マルチビューの群集局所化については未だ検討されていない。
そこで本稿では,M-MVOT(Mahalanobis distance-based multi-view optimal transport)を新たに提案する。
まず、長軸方向と短軸方向が視線方向で導かれるコスト関数の楕円形等方形を定義するマハラノビス距離をユークリッドベース輸送コストに置き換える。
第二に、各ビューにおけるオブジェクト・カメラ間距離は、カメラから遠く離れた誤った予測がより過度に罰せられるように、各ロケーションの最適な輸送コストを更に調整するために使用される。
最後に, モデル損失(M-MVOT)における全ての入力カメラビューを, 最寄りのカメラに基づいて, 接地点毎の最適な輸送コストを計算して検討する戦略を提案する。
複数視点の群集局所化データセット上で, 密度マップに基づく, あるいはユークリッド距離に基づく最適輸送損失よりも, 提案手法の利点を実証する実験を行った。
プロジェクトページ:https://vcc.tech/research/2024/MVOT。
Multi-view crowd localization predicts the ground locations of all people in the scene. Typical methods usually estimate the crowd density maps on the ground plane first, and then obtain the crowd locations. However, the performance of existing methods is limited by the ambiguity of the density maps in crowded areas, where local peaks can be smoothed away. To mitigate the weakness of density map supervision, optimal transport-based point supervision methods have been proposed in the single-image crowd localization tasks, but have not been explored for multi-view crowd localization yet. Thus, in this paper, we propose a novel Mahalanobis distance-based multi-view optimal transport (M-MVOT) loss specifically designed for multi-view crowd localization. First, we replace the Euclidean-based transport cost with the Mahalanobis distance, which defines elliptical iso-contours in the cost function whose long-axis and short-axis directions are guided by the view ray direction. Second, the object-to-camera distance in each view is used to adjust the optimal transport cost of each location further, where the wrong predictions far away from the camera are more heavily penalized. Finally, we propose a strategy to consider all the input camera views in the model loss (M-MVOT) by computing the optimal transport cost for each ground-truth point based on its closest camera. Experiments demonstrate the advantage of the proposed method over density map-based or common Euclidean distance-based optimal transport loss on several multi-view crowd localization datasets. Project page: https://vcc.tech/research/2024/MVOT. | 翻訳日:2024-09-06 02:16:32 公開日:2024-09-03 |
# Shuffle Mamba:マルチモード画像融合のためのランダムシャッフル状態空間モデル
Shuffle Mamba: State Space Models with Random Shuffle for Multi-Modal Image Fusion ( http://arxiv.org/abs/2409.01728v1 ) ライセンス: Link先を確認 | Ke Cao, Xuanhua He, Tao Hu, Chengjun Xie, Jie Zhang, Man Zhou, Danfeng Hong, | (参考訳) マルチモーダル画像融合は、異なるモーダルからの相補的な情報を統合して、強化された情報的画像を生成する。
Mambaのような状態空間モデルは、線形複雑性を持つ長距離モデリングに熟練しているが、ほとんどのMambaベースのアプローチは、バイアス付き事前情報を導入する固定走査戦略を使用する。
この問題を軽減するために, 理論的に実現可能な逆シャッフルで補足し, 固定シーケンススキャンに伴うバイアスを解消することを目的とした, ベイズにヒントを得た新しいスキャン戦略Random Shuffleを提案する。
この変換ペアに基づいて、Shuffle Mamba Frameworkをカスタマイズし、空間およびチャネル軸間のモダリティ認識情報表現と相互モダリティ情報相互作用を浸透させ、ロバストな相互作用とマルチモーダル画像融合のための非バイアスのグローバル受容場を確保する。
さらに,モンテカルロ平均値に基づくテスト手法を開発し,モデル出力が予測結果とより密に一致するようにした。
複数のマルチモーダル画像融合タスクに対する広範囲な実験により提案手法の有効性が示され、最先端の代替技術よりも優れた融合品質が得られる。
コードは受理後利用可能になる。
Multi-modal image fusion integrates complementary information from different modalities to produce enhanced and informative images. Although State-Space Models, such as Mamba, are proficient in long-range modeling with linear complexity, most Mamba-based approaches use fixed scanning strategies, which can introduce biased prior information. To mitigate this issue, we propose a novel Bayesian-inspired scanning strategy called Random Shuffle, supplemented by an theoretically-feasible inverse shuffle to maintain information coordination invariance, aiming to eliminate biases associated with fixed sequence scanning. Based on this transformation pair, we customized the Shuffle Mamba Framework, penetrating modality-aware information representation and cross-modality information interaction across spatial and channel axes to ensure robust interaction and an unbiased global receptive field for multi-modal image fusion. Furthermore, we develop a testing methodology based on Monte-Carlo averaging to ensure the model's output aligns more closely with expected results. Extensive experiments across multiple multi-modal image fusion tasks demonstrate the effectiveness of our proposed method, yielding excellent fusion quality over state-of-the-art alternatives. Code will be available upon acceptance. | 翻訳日:2024-09-06 02:16:32 公開日:2024-09-03 |
# 分散データからのフェデレーション予測駆動推論
Federated Prediction-Powered Inference from Decentralized Data ( http://arxiv.org/abs/2409.01730v1 ) ライセンス: Link先を確認 | Ping Luo, Xiaoge Deng, Ziqing Wen, Tao Sun, Dongsheng Li, | (参考訳) 様々な分野において、機械学習の応用が増加しているため、研究者は安価な予測データにアクセスでき、統計的推測のための補助データとして利用することができる。
このようなデータは金の標準データセットに比べて信頼性が低いことが多いが、予測パワー推論(PPI)は信頼性が低いにもかかわらず統計的妥当性を保証するために提案されている。
しかし、「データサイロ」の課題は、プライベートなゴールドスタンダードデータセットがモデルトレーニングでは共有できないときに生じ、精度の低い予測モデルと不正な推論をもたらす。
本稿では,この課題に対処するフェデレート予測パワー推論(Federated Prediction-Powered Inference, Fed-PPI)フレームワークについて紹介する。
Fed-PPIフレームワークは、プライベートデータ上でローカルモデルをトレーニングし、Federated Learning (FL)を通じてそれらを集約し、PPI計算を使用して信頼区間を導出する。
提案手法は実験により評価され,有効信頼区間の生成の有効性が示された。
In various domains, the increasing application of machine learning allows researchers to access inexpensive predictive data, which can be utilized as auxiliary data for statistical inference. Although such data are often unreliable compared to gold-standard datasets, Prediction-Powered Inference (PPI) has been proposed to ensure statistical validity despite the unreliability. However, the challenge of `data silos' arises when the private gold-standard datasets are non-shareable for model training, leading to less accurate predictive models and invalid inferences. In this paper, we introduces the Federated Prediction-Powered Inference (Fed-PPI) framework, which addresses this challenge by enabling decentralized experimental data to contribute to statistically valid conclusions without sharing private information. The Fed-PPI framework involves training local models on private data, aggregating them through Federated Learning (FL), and deriving confidence intervals using PPI computation. The proposed framework is evaluated through experiments, demonstrating its effectiveness in producing valid confidence intervals. | 翻訳日:2024-09-06 02:16:32 公開日:2024-09-03 |
# Kerr型2光子Jaynes-Cummingsモデルにおける可変多光子束の放出
Tunable multiphoton bundles emission in a Kerr-type two-photon Jaynes-Cummings model ( http://arxiv.org/abs/2409.01737v1 ) ライセンス: Link先を確認 | Jing Tang, Yuangang Deng, | (参考訳) 本稿では,2光子Jaynes-CummingsモデルとKerr非線形性を結合した単一原子-キャビティ系の構築により,中程度の原子-キャビティ結合下での多光子束放出の操作と促進に関する研究を行う。
我々は,n$th状態の真空-ラビ分割がKerr相互作用によって著しく向上できることを示す。
このよく解決された多光子共鳴によるエネルギー-スペクトル不調和性の顕著な増強は、実験の強い結合限界を超えた特別な非古典状態の生成を促進する。
特に、2光および3光の遮断は、キャビティ駆動または原子ポンプ場の振幅を調整することで観察される。
さらに,2-および3-光子束間の遷移は,原子キャビティデチューニングやKerr非線形性を調整することで達成できることがわかった。
さらに、3光子遮断は、空洞と原子場が共に駆動されるときに著しく強化されることを示した。
提案手法は,2光子のJaynes-Cummings相互作用とKerr非線形性を組み合わせることで,高制御可能な非古典的状態と量子デバイスを実現するための経路を提示する。
We present a study on manipulation and enhancement of multiphoton bundles emission under a moderate atom-cavity coupling, by constructing a two-photon Jaynes-Cummings model integrated with Kerr nonlinearity in a single atom-cavity system. We show that the vacuum-Rabi splittings for the $n$th dressed states can be significantly enhanced by Kerr interaction. This remarkable enhancement in energy-spectrum anharmonicity with the well-resolved multiphoton resonance facilitates the generation of special nonclassical states beyond the strong-coupling limit in the experiment. In particular, both two- and three-photon blockades are observed with adjusting the amplitude of the cavity-driving or atom-pump fields. Moreover, we discover that transitions between two- and three-photon bundles can be achieved through tuning the atom-cavity detuning or Kerr nonlinearity. It further showcases the three-photon blockade is substantially strengthened when both the cavity and atomic fields are jointly driven. Our proposal unveils a pathway for realizing highly controllable nonclassical states and quantum devices with combining two-photon Jaynes-Cummings interactions and Kerr nonlinearity, which may pave the way for versatile applications in quantum information science, e.g., all-optical switches and transistors. | 翻訳日:2024-09-06 02:16:32 公開日:2024-09-03 |
# マグノンと光子の長距離強結合:多モード導波路の効果
Long-distance strong coupling of magnon and photon: Effect of multi-mode waveguide ( http://arxiv.org/abs/2409.01738v1 ) ライセンス: Link先を確認 | Yang Xiao, | (参考訳) 結合モード理論は、2つの遠距離高調波発振器間の長距離結合が弱い結合状態にあることを予測している。
しかし、最近の実験では、マグノンと臨界駆動光子の強い結合が2メートルを超える距離で観測された。
理論と実験の相違を説明するため,多モード導波路を介するマグノンと光子の長距離結合について検討した。
以上の結果から, 臨界結合と多モード導波路の両方が関与する場合にのみ, 強い結合が達成できることが示唆された。
前者は減衰を減少させ、後者はマグノンと光子の結合経路を増大させることで結合強度を高める。
我々の理論と結果は、長距離コヒーレンスを理解し、マグノンベースの分散量子ネットワークを設計する道を開く。
Coupled mode theory predicts that the long-distance coupling between two distant harmonic oscillators is in the weak coupling regime. However, a recent experimental measurement observed strong coupling of magnon and critically-driven photon with a distance of over two meters. To explain the discrepancy between theory and experiment, we study long-distance coupling of magnon and photon mediated by a multi-mode waveguide. Our results show that strong coupling is achieved only when both critical coupling and multi-mode waveguide are involved. The former reduces the damping while the latter enhances the coupling strength by increasing the pathways of coupling magnon and photon. Our theory and results pave the way for understanding the long-distance coherence and designing the magnon-based distributed quantum networks. | 翻訳日:2024-09-06 02:16:32 公開日:2024-09-03 |
# 量子アンサンブルの絶対次元性
Absolute dimensionality of quantum ensembles ( http://arxiv.org/abs/2409.01752v1 ) ライセンス: Link先を確認 | Alexander Bernal, Gabriele Cobucci, Martin J. Renner, Armin Tavakoli, | (参考訳) 量子状態の次元は、伝統的に与えられた基底において重畳される区別可能な状態の数と見なされる。
我々は、量子状態のアンサンブルに対する絶対的、つまりベーシ独立な次元の概念を提案する。
これは量子アンサンブルが任意の下次元部分空間と古典的な後処理に制限された状態でシミュレートできるかどうかに基づいている。
量子アンサンブルの絶対次元を決定するために,アンサンブルの情報容量に基づく解析的目撃基準と半定プログラミング基準の両方を開発する。
さらに、ホワイトノイズを受ける純量子状態の任意のアンサンブルに対する明示的なシミュレーションモデルを構築し、自然の場合、それらの最適性を証明する。
また、ジェネリックアンサンブルをシミュレートする効率的な数値法が提供される。
最後に,高次元量子情報処理における絶対次元の役割について論じる。
The dimension of a quantum state is traditionally seen as the number of superposed distinguishable states in a given basis. We propose an absolute, i.e.~basis-independent, notion of dimensionality for ensembles of quantum states. It is based on whether a quantum ensemble can be simulated with states confined to arbitrary lower-dimensional subspaces and classical postprocessing. In order to determine the absolute dimension of quantum ensembles, we develop both analytical witness criteria and a semidefinite programming criterion based on the ensemble's information capacity. Furthermore, we construct explicit simulation models for arbitrary ensembles of pure quantum states subject to white noise, and in natural cases we prove their optimality. Also, efficient numerical methods are provided for simulating generic ensembles. Finally, we discuss the role of absolute dimensionality in high-dimensional quantum information processing. | 翻訳日:2024-09-06 02:01:57 公開日:2024-09-03 |
# 大規模言語モデルが人間の音声コミュニケーションに与える影響の実証的証拠
Empirical evidence of Large Language Model's influence on human spoken communication ( http://arxiv.org/abs/2409.01754v1 ) ライセンス: Link先を確認 | Hiromu Yakura, Ezequiel Lopez-Lopez, Levin Brinkmann, Ignacio Serna, Prateek Gupta, Iyad Rahwan, | (参考訳) 人工知能(AI)エージェントが、ChatGPTのような大規模言語モデル(LLM)の進歩のおかげで、自然言語で数十億の人間と対話できるようになった。
このことは、AIが人間の文化の基本的な側面を形成する可能性を秘めているかどうか、という疑問を提起する。
最近の分析によると、科学出版物はAI固有の言語の証拠をすでに示している。
しかし、この証拠は決定的ではない。科学者は単にAIを使って文章を模倣しているのかもしれない。
AIが人間の音声コミュニケーションに影響を与えたかどうかを調査するため、約280万本の英語のビデオ、プレゼンテーション、講演、スピーチを、学術機関の2万本以上のYouTubeチャンネルから書き起こし分析した。
発表後,ChatGPTに特有な関連のある単語に特有な単語使用傾向が顕著に変化していることが判明した。
これらの発見は、人間が話し言葉でLSMを模倣する最初の経験的証拠である。
我々の結果は、意図せず言語多様性を減らしたり、大量操作のために意図的に誤用されるAIの可能性について、社会的・政策的な懸念を提起する。
彼らはまた、マシンの振る舞いと人間の文化の間のフィードバックループについて、さらなる調査の必要性を強調している。
Artificial Intelligence (AI) agents now interact with billions of humans in natural language, thanks to advances in Large Language Models (LLMs) like ChatGPT. This raises the question of whether AI has the potential to shape a fundamental aspect of human culture: the way we speak. Recent analyses revealed that scientific publications already exhibit evidence of AI-specific language. But this evidence is inconclusive, since scientists may simply be using AI to copy-edit their writing. To explore whether AI has influenced human spoken communication, we transcribed and analyzed about 280,000 English-language videos of presentations, talks, and speeches from more than 20,000 YouTube channels of academic institutions. We find a significant shift in the trend of word usage specific to words distinctively associated with ChatGPT following its release. These findings provide the first empirical evidence that humans increasingly imitate LLMs in their spoken language. Our results raise societal and policy-relevant concerns about the potential of AI to unintentionally reduce linguistic diversity, or to be deliberately misused for mass manipulation. They also highlight the need for further investigation into the feedback loops between machine behavior and human culture. | 翻訳日:2024-09-06 02:01:57 公開日:2024-09-03 |
# PRoGS: ガウスプレートのプログレッシブレンダリング
PRoGS: Progressive Rendering of Gaussian Splats ( http://arxiv.org/abs/2409.01761v1 ) ライセンス: Link先を確認 | Brent Zoomers, Maarten Wijnants, Ivan Molenaers, Joni Vanherck, Jeroen Put, Lode Jorissen, Nick Michiels, | (参考訳) 過去1年間に3Dガウススティング(3DGS)は、3Dシーンを知覚的に正確に表現する能力において大きな注目を集めてきた。
しかし、各スプラットの個々のデータを格納する必要があるため、かなりの量のストレージを必要とする可能性がある。
圧縮技術はメモリフットプリントを減らすことで潜在的な解決策を提供するが、レンダリングする前にシーン全体を検索する必要がある。
本研究では、シーン全体をメモリにロードすることなく、最終シーンをできるだけ早く近似した可視コンテンツを表示することを目的として、これらのシーンを段階的にレンダリングする新しいアプローチを提案する。
このアプローチは、メモリ制約に制限されたデバイス上のレンダリングアプリケーションと、帯域幅の最小化が望ましいストリーミングアプリケーションの両方に有効である。
これを実現するために、各ガウスの最終的なシーンへの貢献を近似し、レンダリングプロセスへの含意に基づいて優先順位付けの順序を構築する。
さらに,本手法を既存の圧縮手法と組み合わせて3DGSシーンをプログレッシブにレンダリング(およびストリーム)し,シーン内の最も重要なスプラペットに着目して帯域幅を最適化できることを実証した。
全体として、我々の研究は、リモートでホストされた3DGSコンテンツを、オーバー・ザ・トップの消費シナリオにおいてエンドユーザーにより迅速にアクセスできるようにする基盤を確立しています。
Over the past year, 3D Gaussian Splatting (3DGS) has received significant attention for its ability to represent 3D scenes in a perceptually accurate manner. However, it can require a substantial amount of storage since each splat's individual data must be stored. While compression techniques offer a potential solution by reducing the memory footprint, they still necessitate retrieving the entire scene before any part of it can be rendered. In this work, we introduce a novel approach for progressively rendering such scenes, aiming to display visible content that closely approximates the final scene as early as possible without loading the entire scene into memory. This approach benefits both on-device rendering applications limited by memory constraints and streaming applications where minimal bandwidth usage is preferred. To achieve this, we approximate the contribution of each Gaussian to the final scene and construct an order of prioritization on their inclusion in the rendering process. Additionally, we demonstrate that our approach can be combined with existing compression methods to progressively render (and stream) 3DGS scenes, optimizing bandwidth usage by focusing on the most important splats within a scene. Overall, our work establishes a foundation for making remotely hosted 3DGS content more quickly accessible to end-users in over-the-top consumption scenarios, with our results showing significant improvements in quality across all metrics compared to existing methods. | 翻訳日:2024-09-06 02:01:57 公開日:2024-09-03 |
# 繰り返しスパイクニューラルネットを用いた皮質スパイク列車の指速度の復号
Decoding finger velocity from cortical spike trains with recurrent spiking neural networks ( http://arxiv.org/abs/2409.01762v1 ) ライセンス: Link先を確認 | Tengjun Liu, Julia Gygax, Julian Rossbroich, Yansong Chua, Shaomin Zhang, Friedemann Zenke, | (参考訳) 侵襲性皮質脳-機械インタフェース(BMI)は運動障害患者の生活の質を著しく向上させる。
それにもかかわらず、外部に装着された台座は感染の危険を冒し、完全に移植されたシステムを要求する。
しかし、そのようなシステムは信頼性の高い復号性能を提供しながら、厳格なレイテンシとエネルギー制約を満たす必要がある。
繰り返しスパイクニューラルネットワーク(RSNN)は、ニューロモルフィックハードウェア上での超低消費電力低レイテンシ処理に理想的に適しているが、これらが上記の要件を満たすかどうかは不明である。
この問題に対処するために、我々は2匹のマカクザルの皮質スパイクトレイン(CST)から指の速度を復号するためにRSNNを訓練した。
まず、大規模なRSNNモデルは、復号精度で既存のフィードフォワードスパイクニューラルネットワーク(SNN)と人工ニューラルネットワーク(ANN)より優れていたことを発見した。
次に、メモリフットプリントが小さく、発射速度が低く、接続性が疎い小さなRSNNを開発しました。
計算能力の低下にもかかわらず、結果のモデルは既存のSNNやANNデコーダよりも大幅に向上した。
以上の結果から,RSNNは厳しい資源制約下での競争力のあるCSTデコード性能を提供し,患者医療に革命をもたらす可能性を秘めている超低消費電力BMIの候補となる可能性が示唆された。
Invasive cortical brain-machine interfaces (BMIs) can significantly improve the life quality of motor-impaired patients. Nonetheless, externally mounted pedestals pose an infection risk, which calls for fully implanted systems. Such systems, however, must meet strict latency and energy constraints while providing reliable decoding performance. While recurrent spiking neural networks (RSNNs) are ideally suited for ultra-low-power, low-latency processing on neuromorphic hardware, it is unclear whether they meet the above requirements. To address this question, we trained RSNNs to decode finger velocity from cortical spike trains (CSTs) of two macaque monkeys. First, we found that a large RSNN model outperformed existing feedforward spiking neural networks (SNNs) and artificial neural networks (ANNs) in terms of their decoding accuracy. We next developed a tiny RSNN with a smaller memory footprint, low firing rates, and sparse connectivity. Despite its reduced computational requirements, the resulting model performed substantially better than existing SNN and ANN decoders. Our results thus demonstrate that RSNNs offer competitive CST decoding performance under tight resource constraints and are promising candidates for fully implanted ultra-low-power BMIs with the potential to revolutionize patient care. | 翻訳日:2024-09-06 02:01:57 公開日:2024-09-03 |
# FC-KAN:Kolmogorov-Arnoldネットワークにおける機能結合
FC-KAN: Function Combinations in Kolmogorov-Arnold Networks ( http://arxiv.org/abs/2409.01763v1 ) ライセンス: Link先を確認 | Hoang-Thang Ta, Duy-Quy Thai, Abu Bakar Siddiqur Rahman, Grigori Sidorov, Alexander Gelbukh, | (参考訳) 本稿では,B-スプライン,ウェーブレット,ラジアル基底関数といった一般的な数学的関数を,要素演算による低次元データ上で組み合わせた,コルモゴロフ・アルノルドネットワーク(KAN)について紹介する。
これらの関数の出力を和、要素積、和と要素積の追加、二次関数表現、連結などを組み合わせるためのいくつかの方法を検討する。
実験では,MNISTデータセットとFashion-MNISTデータセットを用いて,FC-KANとBSRBF-KAN,EfficientKAN,FastKAN,FasterKANなどの既存のKANとを比較した。
B-スプラインからの出力とガウス差分(DoG)を2次関数の形で組み合わせたFC-KANの変種は、5つの独立したトレーニングランの平均で他のモデルよりも優れていた。
我々は,FC-KANが機能の組み合わせを利用して将来のkanを設計できることを期待している。
私たちのリポジトリは、https://github.com/hoangthangta/FC_KAN.comで公開されています。
In this paper, we introduce FC-KAN, a Kolmogorov-Arnold Network (KAN) that leverages combinations of popular mathematical functions such as B-splines, wavelets, and radial basis functions on low-dimensional data through element-wise operations. We explore several methods for combining the outputs of these functions, including sum, element-wise product, the addition of sum and element-wise product, quadratic function representation, and concatenation. In our experiments, we compare FC-KAN with multi-layer perceptron network (MLP) and other existing KANs, such as BSRBF-KAN, EfficientKAN, FastKAN, and FasterKAN, on the MNIST and Fashion-MNIST datasets. A variant of FC-KAN, which uses a combination of outputs from B-splines and Difference of Gaussians (DoG) in the form of a quadratic function, outperformed all other models on the average of 5 independent training runs. We expect that FC-KAN can leverage function combinations to design future KANs. Our repository is publicly available at: https://github.com/hoangthangta/FC_KAN. | 翻訳日:2024-09-06 02:01:57 公開日:2024-09-03 |
# グラディエントイベント:イベントカメラにおける視覚情報取得の改善
Gradient events: improved acquisition of visual information in event cameras ( http://arxiv.org/abs/2409.01764v1 ) ライセンス: Link先を確認 | Eero Lehtonen, Tuomo Komulainen, Ari Paasio, Mika Laiho, | (参考訳) 現在のイベントカメラはバイオインスパイアされたセンサーで、シーンの明るさ変化に非同期に反応し、各ピクセルに対して独立に反応し、これらの変化を3次イベントストリームとして送信する。
イベントカメラは、時間分解能とピクセル帯域幅が大幅に向上し、動きのぼやけが減少し、ダイナミックレンジが非常に高くなるなど、従来のデジタルカメラよりもいくつかの利点がある。
しかし、既存のコンピュータビジョンアルゴリズムを出力イベントストリームに適用することの難しさや、振動する光源の存在下での非形式的なイベントの洪水といった課題も導入している。
ここでは、従来の明るさイベントと同じ特性から得られる勾配イベントという新しいタイプのイベントを提案するが、これは光源の発振に非常に敏感な設計であり、グレースケールのフレーム再構成をかなり改善することができる。
傾斜イベントに基づくビデオ再構成は、利用可能なイベント・ツー・ビデオ・データセットで評価した場合、既存の最先端の輝度・イベント・ベースの手法よりも大きなマージンで優れていることを示す。
以上の結果から,イベントカメラによる視覚情報の取得において,勾配情報をどのように活用できるかが示唆された。
The current event cameras are bio-inspired sensors that respond to brightness changes in the scene asynchronously and independently for every pixel, and transmit these changes as ternary event streams. Event cameras have several benefits over conventional digital cameras, such as significantly higher temporal resolution and pixel bandwidth resulting in reduced motion blur, and very high dynamic range. However, they also introduce challenges such as the difficulty of applying existing computer vision algorithms to the output event streams, and the flood of uninformative events in the presence of oscillating light sources. Here we propose a new type of event, the gradient event, which benefits from the same properties as a conventional brightness event, but which is by design much less sensitive to oscillating light sources, and which enables considerably better grayscale frame reconstruction. We show that the gradient event -based video reconstruction outperforms existing state-of-the-art brightness event -based methods by a significant margin, when evaluated on publicly available event-to-video datasets. Our results show how gradient information can be used to significantly improve the acquisition of visual information by an event camera. | 翻訳日:2024-09-06 02:01:57 公開日:2024-09-03 |
# 高齢者におけるスマートフォンの普及とサイバー攻撃の脅威認識の役割
Adoption of smartphones among older adults and the role of perceived threat of cyberattacks ( http://arxiv.org/abs/2409.01771v1 ) ライセンス: Link先を確認 | Patrik Pucer, Boštjan Žvanut, Simon Vrhovec, | (参考訳) 高齢者(65歳以上)によるスマートフォンの採用は、特にサイバーセキュリティやサイバー脅威に関して、あまり理解されていない。
本研究では,高齢者におけるスマートフォンの普及と利用の障壁として,サイバー攻撃の脅威に対する認識に焦点を当てた。
この研究は、スマートフォンのユーザーと非ユーザーの違いについても調査することを目的としている。
スロベニアの高齢者(N=535。
共分散に基づく構造方程式モデリングの結果は,有用性(PU),主観的規範(SN),使用に対する態度(AtU),使いやすさ(EoU)とPUの関連,HMとAtUの関連,スマートフォン技術不安(STA)と使用恐怖(FoU)の関連について一貫した支持を示す。
検出された脅威 (PT) と ItU の負の関連は全サンプルにおいて有意であったが, 未使用者および未認識のサブサンプルは, スマートフォンを高齢者に採用する役割を担っている。
PTとAtU(未認識のサブサンプルを除く)とPTとPUとの間に有意な有意な相関がみられた。
本研究の結果は,高齢者におけるスマートフォンの普及を促進するキャンペーン,ワークショップ,トレーニング,非公式教育の改善を示唆するものである。
Adoption of smartphones by older adults (i.e., 65+ years old) is poorly understood, especially in relation to cybersecurity and cyberthreats. In this study, we focus on the perceived threat of cyberattacks as a potential barrier to smartphone adoption and use among older adults. The study also aims at investigating the differences between users and non-users of smartphones. We conducted a quantitative cross-sectional survey of older adults in Slovenia (N = 535). The results of covariance-based structural equation modeling indicate consistent support for the associations of intention to use (ItU) with perceived usefulness (PU), subjective norm (SN) and attitude toward use (AtU), the association between ease of use (EoU) and PU, the association between hedonic motivation (HM) and AtU, and the association between smartphone technology anxiety (STA) and fear of use (FoU). Even though the negative association between perceived threat (PT) and ItU was significant in the full sample, the non-user and the not aware subsamples, its role in adoption of smartphones among older adults remains puzzling. We uncovered significant positive associations between PT and AtU (except in the not aware subsample), and PT and PU which we could not fully explain in our study. The results of our study provide some insights on how campaigns promoting adoption of smartphones among older adults, workshops, training and informal teaching might be improved. | 翻訳日:2024-09-06 02:01:57 公開日:2024-09-03 |
# 超音速加速のための群構造を目指して
Towards a group structure for superluminal velocity boosts ( http://arxiv.org/abs/2409.01773v1 ) ライセンス: Link先を確認 | Matthew J. Lake, | (参考訳) カノニカル・サブルミナル・ローレンツ・ブーストは明確な幾何学的解釈を持つ。
それらは、光円錐の中に2ドル(約2,400円)のハイパーボロイドのファミリーと、その外装である1ドル(約1,400円)のハイパーボロイドの両方を残した双曲回転として正確に表現することができる。
本研究では、超曲面の2つの族の間の写像を構築し、対応する作用素を超光速加速として解釈する。
物理オブザーバは光速障壁を「跳躍」することはできないが、ある状態から別の状態(少なくとも古典的にはそうではない)に移動するためには、超光運動の存在自体がパラドックスを発生しない。
ドラガンとエケルトが提唱した「相対性理論の量子原理」に関する最近の研究におけるこの構成の意味について論じる。
幾何図形は、それらの ‘superboost' 作用素を$(1+1)$次元で再現するが、全く異なる方法で$(1+3)$次元に一般化する。
このことは、既存のモデル、すなわち、既存の実験結果と矛盾する追加の望ましくない現象論を生じさせることなく、グループ構造に超光的ブーストを埋め込む可能性という、既存のモデルに閉じられている重要な可能性を残している。
サブルミナル・スーパールミナル・ブーストの両方を含む集合が、$(1+1)$次元時空で群を形成し、これらの結果を高次元測地へ拡張するためのプログラムの概要を示す。
Canonical subluminal Lorentz boosts have a clear geometric interpretation. They can be neatly expressed as hyperbolic rotations, that leave both the family of $2$-sheet hyperboloids within the light cone, and the family $1$-sheet hyperboloids exterior to it, invariant. In this work, we construct a map between the two families of hypersurfaces and interpret the corresponding operators as superluminal velocity boosts. Though a physical observer cannot `jump' the light speed barrier, to pass from one regime to the other (at least not classically), the existence of superluminal motion does not, by itself, generate paradoxes. The implications of this construction for recent work on the `quantum principle of relativity', proposed by Dragan and Ekert, are discussed. The geometric picture reproduces their `superboost' operator in $(1+1)$ dimensions but generalises to $(1+3)$ dimensions in a very different way. This leaves open an important possibility, which appears to be closed to existing models, namely, the possibility of embedding the superluminal boosts within a group structure, without generating additional unwanted phenomenology, that contradicts existing experimental results. We prove that the set containing both subluminal and superluminal boosts forms a group, in $(1+1)$-dimensional spacetimes, and outline a program to extend these results to higher-dimensional geometries. | 翻訳日:2024-09-06 02:01:57 公開日:2024-09-03 |
# 深層学習言語ステガナリシス研究の現状と展望
State-of-the-art Advances of Deep-learning Linguistic Steganalysis Research ( http://arxiv.org/abs/2409.01780v1 ) ライセンス: Link先を確認 | Yihao Wang, Ru Zhang, Yifan Tang, Jianyi Liu, | (参考訳) 生成的言語ステガノグラフィー技術の進化に伴い、従来のステガナリシスは、ステガノグラフィーによって引き起こされる変化を堅牢に定量化するに足りず、検出が複雑になる。
その結果、研究パラダイムは深層学習に基づく言語ステガナリシスへと転換した。
本研究は,既存のコントリビューションを包括的にレビューし,発達軌跡の評価を行う。
具体的には、まず、この分野とテキスト分類の領域の違いを比較しながら、言語ステガナリシスの一般的な公式の形式化された表現を提供した。
その後、ベクトル空間マッピングと特徴抽出モデルに基づいて既存の研究を2つのレベルに分類し、研究モチベーション、モデルアドバンテージ、その他の詳細を比較した。
実験結果の比較分析を行い,評価を行った。
最後に、この分野で直面する課題について論じ、今後の発展に向けてのいくつかの方向性と、緊急に対処する必要がある重要な課題について論じる。
With the evolution of generative linguistic steganography techniques, conventional steganalysis falls short in robustly quantifying the alterations induced by steganography, thereby complicating detection. Consequently, the research paradigm has pivoted towards deep-learning-based linguistic steganalysis. This study offers a comprehensive review of existing contributions and evaluates prevailing developmental trajectories. Specifically, we first provided a formalized exposition of the general formulas for linguistic steganalysis, while comparing the differences between this field and the domain of text classification. Subsequently, we classified the existing work into two levels based on vector space mapping and feature extraction models, thereby comparing the research motivations, model advantages, and other details. A comparative analysis of the experiments is conducted to assess the performances. Finally, the challenges faced by this field are discussed, and several directions for future development and key issues that urgently need to be addressed are proposed. | 翻訳日:2024-09-06 02:01:57 公開日:2024-09-03 |
# スパース・ノイズ画像における表現学習とクラスタリングの二重化
Dual Advancement of Representation Learning and Clustering for Sparse and Noisy Images ( http://arxiv.org/abs/2409.01781v1 ) ライセンス: Link先を確認 | Wenlin Li, Yucheng Xu, Xiaoqing Zheng, Suoya Han, Jun Wang, Xiaobo Sun, | (参考訳) 空間的遺伝子発現データと同様、スパース・ノイズ画像(SNI)は、効率的な表現学習とクラスタリングに重大な課題を生じさせ、完全なデータ解析と解釈に不可欠である。
これらの課題に対応するために、コントラスト学習を利用してマスク画像モデリングから派生した表現を強化する革新的なフレームワークであるDARLC(Dual Advancement of Representation Learning and Clustering)を提案する。
同時に、DARLCはクラスタ割り当てを結合的でエンドツーエンドなアプローチに統合する。
この統合クラスタリング戦略は、対照的な学習に固有の「クラス衝突問題」に対処し、結果として得られる表現の質を向上させる。
コントラスト学習のためのより有効な肯定的なビューを生成するために,画像のデノベートを付加データとして生成するグラフアテンションネットワークに基づく手法を用いる。
このように、我々のフレームワークは、局所的な認識性、識別性、関係意味論の理解を高めることによって、表現の学習を改善する包括的なアプローチを提供する。
さらに,学生のt混合モデルを用いて,より堅牢で適応可能なSNIクラスタリングを実現する。
SNIからなる12種類のデータセットで実施された大規模な実験は、DARLCが画像クラスタリングと遺伝子相互作用を正確にキャプチャする画像表現の両方において最先端の手法を上回ることを実証している。
コードはhttps://github.com/zipging/DARLCで入手できる。
Sparse and noisy images (SNIs), like those in spatial gene expression data, pose significant challenges for effective representation learning and clustering, which are essential for thorough data analysis and interpretation. In response to these challenges, we propose Dual Advancement of Representation Learning and Clustering (DARLC), an innovative framework that leverages contrastive learning to enhance the representations derived from masked image modeling. Simultaneously, DARLC integrates cluster assignments in a cohesive, end-to-end approach. This integrated clustering strategy addresses the "class collision problem" inherent in contrastive learning, thus improving the quality of the resulting representations. To generate more plausible positive views for contrastive learning, we employ a graph attention network-based technique that produces denoised images as augmented data. As such, our framework offers a comprehensive approach that improves the learning of representations by enhancing their local perceptibility, distinctiveness, and the understanding of relational semantics. Furthermore, we utilize a Student's t mixture model to achieve more robust and adaptable clustering of SNIs. Extensive experiments, conducted across 12 different types of datasets consisting of SNIs, demonstrate that DARLC surpasses the state-of-the-art methods in both image clustering and generating image representations that accurately capture gene interactions. Code is available at https://github.com/zipging/DARLC. | 翻訳日:2024-09-06 02:01:57 公開日:2024-09-03 |
# UWStereo: 水中ステレオマッチングのための大規模な合成データセット
UWStereo: A Large Synthetic Dataset for Underwater Stereo Matching ( http://arxiv.org/abs/2409.01782v1 ) ライセンス: Link先を確認 | Qingxuan Lv, Junyu Dong, Yuezun Li, Sheng Chen, Hui Yu, Shu Zhang, Wenhan Wang, | (参考訳) 近年のステレオマッチングの進歩にもかかわらず、複雑な水中設定の拡張は、主に次のような理由により、未探索のままである。
1) 水中画像の可視性,低コントラスト,その他の悪影響
2) 深層学習モデルの訓練における地中真理データ取得の難しさ,すなわち画像の同時取得とそれに対応する画素単位の深度情報を水中環境下で推定すること。
水中ステレオマッチングのさらなる進歩を実現するため,UWStereoと呼ばれる大規模な合成データセットを導入する。
データセットには,左図に対する高密度かつ高精度な不均一アノテーションを備えた合成ステレオ画像ペアが29,568個含まれている。
我々はサンゴ、船、ロボットなどの多様な物体で満たされた4つの異なる水中シーンを設計する。
また、カメラモデル、照明、環境効果のさらなるバリエーションも引き起こす。
既存の水中データセットと比較して、UWStereoはスケール、変動、アノテーション、フォトリアリスティックな画質の点で優れている。
UWStereoデータセットの有効性を検証するため,9つの最先端アルゴリズムをベンチマークとして比較し,総合評価を行った。
結果は、現在のモデルは依然として新しい領域への一般化に苦慮していることを示している。
そこで我々は、ステレオマッチングトレーニングの前にクロスドメインマスク画像の再構成を学習し、長距離コンテンツ情報を集約して一般化能力を高めるクロスビューアテンション強化モジュールを統合する新しい戦略を設計する。
Despite recent advances in stereo matching, the extension to intricate underwater settings remains unexplored, primarily owing to: 1) the reduced visibility, low contrast, and other adverse effects of underwater images; 2) the difficulty in obtaining ground truth data for training deep learning models, i.e. simultaneously capturing an image and estimating its corresponding pixel-wise depth information in underwater environments. To enable further advance in underwater stereo matching, we introduce a large synthetic dataset called UWStereo. Our dataset includes 29,568 synthetic stereo image pairs with dense and accurate disparity annotations for left view. We design four distinct underwater scenes filled with diverse objects such as corals, ships and robots. We also induce additional variations in camera model, lighting, and environmental effects. In comparison with existing underwater datasets, UWStereo is superior in terms of scale, variation, annotation, and photo-realistic image quality. To substantiate the efficacy of the UWStereo dataset, we undertake a comprehensive evaluation compared with nine state-of-the-art algorithms as benchmarks. The results indicate that current models still struggle to generalize to new domains. Hence, we design a new strategy that learns to reconstruct cross domain masked images before stereo matching training and integrate a cross view attention enhancement module that aggregates long-range content information to enhance the generalization ability. | 翻訳日:2024-09-06 02:01:57 公開日:2024-09-03 |
# LLM-GAN: 説明可能なフェイクニュース検出のための大規模言語モデルによる生成的敵ネットワークの構築
LLM-GAN: Construct Generative Adversarial Network Through Large Language Models For Explainable Fake News Detection ( http://arxiv.org/abs/2409.01787v1 ) ライセンス: Link先を確認 | Yifeng Wang, Zhouhong Gu, Siwei Zhang, Suhang Zheng, Tao Wang, Tianyu Li, Hongwei Feng, Yanghua Xiao, | (参考訳) 説明可能な偽ニュース検出は、注釈付き説明でニュース項目の真偽を予測する。
現在、Large Language Models (LLM) は、その強力な自然言語理解と説明生成能力で知られている。
しかし、説明可能な偽ニュース検出のためのLLMの提示には、大きな課題が2つ残っている。
第一に、フェイクニュースは理にかなっているようで、簡単にLLMを誤解させる可能性がある。
第2に、LLMをこのタスクに利用すると、正しい説明と誤った説明の両方が生成され、ループ内の豊富な労力が要求される。
本稿では,LLMがジェネレータおよび検出器となり,現実的なフェイクニュース生成・検出を実現するためのプロンプト機構を利用した新しいフレームワークであるLLM-GANを提案する。
本結果は,LLM-GANが予測性能と説明品質の両方において有効であることを示す。
さらに、LLM-GANをクラウドネイティブなAIプラットフォームに統合して、より優れたフェイクニュース検出サービスをクラウドに提供しています。
Explainable fake news detection predicts the authenticity of news items with annotated explanations. Today, Large Language Models (LLMs) are known for their powerful natural language understanding and explanation generation abilities. However, presenting LLMs for explainable fake news detection remains two main challenges. Firstly, fake news appears reasonable and could easily mislead LLMs, leaving them unable to understand the complex news-faking process. Secondly, utilizing LLMs for this task would generate both correct and incorrect explanations, which necessitates abundant labor in the loop. In this paper, we propose LLM-GAN, a novel framework that utilizes prompting mechanisms to enable an LLM to become Generator and Detector and for realistic fake news generation and detection. Our results demonstrate LLM-GAN's effectiveness in both prediction performance and explanation quality. We further showcase the integration of LLM-GAN to a cloud-native AI platform to provide better fake news detection service in the cloud. | 翻訳日:2024-09-06 02:01:57 公開日:2024-09-03 |
# DogeFuzz:Ethereumスマートコントラクトのためのシンプルで効率的なGrey-box Fuzzer
DogeFuzz: A Simple Yet Efficient Grey-box Fuzzer for Ethereum Smart Contracts ( http://arxiv.org/abs/2409.01788v1 ) ライセンス: Link先を確認 | Ismael Medeiros, Fausto Carvalho, Alexandre Ferreira, Rodrigo Bonifácio, Fabiano Cavalcanti Fernandes, | (参考訳) Ethereumは、数十億ドルを集めた分散ピアツーピアブロックチェーンインフラストラクチャである。
おそらくその成功によりEthereumは、さまざまな種類の攻撃の標的となり、研究者がEVMバイトコード(Ethereum仮想マシンの言語)の脆弱性を特定するためのさまざまなテクニックを探求する動機となっている。
近年の研究では、スマートコントラクトファジィザを実証的に比較しているが、より単純なグレーボックスファジィザとより高度なファジィザとの対比を調査する文献は乏しい。
このギャップを埋めるために、本稿では、EthereumスマートコントラクトのファジブルインフラストラクチャであるDogeFuzzを紹介し、現在、ブラックボックスファジリングと2つのグレーボックスファジリング戦略をサポートしている:カバレッジガイドグレーボックスファジリング(DogeFuzz-G)とディレクトグレイボックスファジリング(DogeFuzz-DG)である。
文献で既に利用可能なベンチマークを用いて一連の実験を行い、DogeFuzz戦略とスマートコントラクトのための最先端のファズーを比較した。
驚くべきことに、DogeFuzzは入力生成を改善するための高度な技術(シンボリック実行や機械学習など)を利用していないが、DogeFuzzは2つの最先端ファズーであるsFuzzとILFより優れている。
それにもかかわらず、SmartianファザはDogeFuzzよりも高いコードカバレッジとバグフィニッシュ機能を示している。
Ethereum is a distributed, peer-to-peer blockchain infrastructure that has attracted billions of dollars. Perhaps due to its success, Ethereum has become a target for various kinds of attacks, motivating researchers to explore different techniques to identify vulnerabilities in EVM bytecode (the language of the Ethereum Virtual Machine), including formal verification, symbolic execution, and fuzz testing. Although recent studies empirically compare smart contract fuzzers, there is a lack of literature investigating how simpler greybox fuzzers compare to more advanced ones. To fill this gap, in this paper, we present DogeFuzz, an extensible infrastructure for fuzzing Ethereum smart contracts, currently supporting black-box fuzzing and two grey-box fuzzing strategies: coverage-guided grey-box fuzzing (DogeFuzz-G) and directed grey-box fuzzing (DogeFuzz-DG). We conduct a series of experiments using benchmarks already available in the literature and compare the DogeFuzz strategies with state-of-the-art fuzzers for smart contracts. Surprisingly, although DogeFuzz does not leverage advanced techniques for improving input generation (such as symbolic execution or machine learning), DogeFuzz outperforms sFuzz and ILF, two state-of-the-art fuzzers. Nonetheless, the Smartian fuzzer shows higher code coverage and bug-finding capabilities than DogeFuzz. | 翻訳日:2024-09-06 02:01:57 公開日:2024-09-03 |
# U(1)格子ゲージ理論における非安定化性
Non-stabilizerness in U(1) lattice gauge theory ( http://arxiv.org/abs/2409.01789v1 ) ライセンス: Link先を確認 | Pedro R. Nicácio Falcão, Poetri Sonya Tarabunga, Martina Frau, Emanuele Tirrito, Jakub Zakrzewski, Marcello Dalmonte, | (参考訳) 1次元の格子ゲージ理論において、非安定化器性(量子コンピューティングの枠組み内で状態複雑性を定量化する基本的な量子資源)について徹底的に研究する。
非安定化器性は常に体積に広まっており、臨界点の存在と直接的関係がないことを示す。
これは、非安定化剤性は臨界に強く敏感であるが、絡み合い(通常は臨界点において極大である)とは全く異なる方法であることを示している。
この結果から, 連続極限に近い格子ゲージ理論の誤差補正シミュレーションは, 有限相関長の格子に類似した計算コストを有し, 量子計算の量子資源に対する厳密な下界を与えることがわかった。
We present a thorough investigation of non-stabilizerness - a fundamental quantum resource that quantifies state complexity within the framework of quantum computing - in a one-dimensional U(1) lattice gauge theory. We show how non-stabilizerness is always extensive with volume, and has no direct relation to the presence of critical points. However, its derivatives typically display discontinuities across the latter: This indicates that non-stabilizerness is strongly sensitive to criticality, but in a manner that is very different from entanglement (that, typically, is maximal at the critical point). Our results indicate that error-corrected simulations of lattice gauge theories close to the continuum limit have similar computational costs to those at finite correlation length and provide rigorous lower bounds for quantum resources of such quantum computations. | 翻訳日:2024-09-06 02:01:57 公開日:2024-09-03 |
# ベンチマークのトレーニングは必要なだけではない
Training on the Benchmark Is Not All You Need ( http://arxiv.org/abs/2409.01790v1 ) ライセンス: Link先を確認 | Shiwen Ni, Xiangtao Kong, Chengming Li, Xiping Hu, Ruifeng Xu, Jia Zhu, Min Yang, | (参考訳) LLM(Large Language Models)の成功は、事前学習フェーズで学んだ大量の事前学習データに大きく依存している。
事前トレーニングプロセスとトレーニングデータの不透明さは、多くのベンチマークテストの結果を信頼できないものにする。
任意のモデルがベンチマークテストセットでトレーニングされた場合、フィールドの健全性を著しく損なう可能性がある。
大規模言語モデルの機能を自動化し、効率的にテストするために、多くの主要なベンチマークでは、多重選択形式を採用している。
複数選択オプションの内容のスワップは質問自体の意味に影響を与えないため,この特性に基づいた単純かつ効果的なデータ漏洩検出法を提案する。
具体的には、データ内のオプションの内容をシャッフルして対応する導出データセットを生成し、導出データセット上のモデルのログ確率分布に基づいてデータ漏洩を検出する。
ログ確率のセットに最大値と外れ値がある場合、データはリークされる。
提案手法は,モデルトレーニングデータやウェイトにアクセスせずにブラックボックス条件下で動作可能で,モデル事前学習データにおけるベンチマークテストセットからのデータの漏洩を効果的に識別することができる。
2つのLCMとベンチマーク設計に基づく実験により,本手法の有効性を実証した。
さらに、4つのベンチマークデータセット上で、31の主流オープンソースLLMのデータリークの度合いを評価し、各ベンチマークのリークLDMのランク付けを行い、QwenファミリーのLSMがデータリークの度合いが最も高いことを確認した。
The success of Large Language Models (LLMs) relies heavily on the huge amount of pre-training data learned in the pre-training phase. The opacity of the pre-training process and the training data causes the results of many benchmark tests to become unreliable. If any model has been trained on a benchmark test set, it can seriously hinder the health of the field. In order to automate and efficiently test the capabilities of large language models, numerous mainstream benchmarks adopt a multiple-choice format. As the swapping of the contents of multiple-choice options does not affect the meaning of the question itself, we propose a simple and effective data leakage detection method based on this property. Specifically, we shuffle the contents of the options in the data to generate the corresponding derived data sets, and then detect data leakage based on the model's log probability distribution over the derived data sets. If there is a maximum and outlier in the set of log probabilities, it indicates that the data is leaked. Our method is able to work under black-box conditions without access to model training data or weights, effectively identifying data leakage from benchmark test sets in model pre-training data, including both normal scenarios and complex scenarios where options may have been shuffled intentionally or unintentionally. Through experiments based on two LLMs and benchmark designs, we demonstrate the effectiveness of our method. In addition, we evaluate the degree of data leakage of 31 mainstream open-source LLMs on four benchmark datasets and give a ranking of the leaked LLMs for each benchmark, and we find that the Qwen family of LLMs has the highest degree of data leakage. | 翻訳日:2024-09-06 02:01:57 公開日:2024-09-03 |
# マルチタスク学習のための勾配投影によるタスク重み付け
Task Weighting through Gradient Projection for Multitask Learning ( http://arxiv.org/abs/2409.01793v1 ) ライセンス: Link先を確認 | Christian Bohn, Ido Freeman, Hasan Tercan, Tobias Meisen, | (参考訳) マルチタスク学習では、タスク勾配間の衝突は、モデルのトレーニングパフォーマンスを劣化させる頻繁な問題である。
これは、しばしばより高速な収束とパフォーマンスメトリクスの改善につながるグラディエント・プロジェクション・アルゴリズムPCGradによって対処される。
本研究では,タスク優先順位付けを同時に行うために,このアルゴリズムを適応させる手法を提案する。
従来のタスクの重み付けとは違い、重み付け方式は、タスクが矛盾している場合にのみ適用されるが、トレーニングを妨げない場合にのみ適用される。
課題重み付けの要因を確率分布に置き換え、紛争時にどのタスク勾配が予測されるかを決定する。
nuScenes, CIFAR-100, CelebAデータセットに関する実験により, 本手法がタスク重み付けの実用的な方法であることを確認した。
複数の異なるタスク重み付け方式を用いて、一様射影確率を持つグラディエント・プロジェクションと比較して、ほとんどのタスクのパフォーマンス指標が大幅に改善されているのを観察する。
In multitask learning, conflicts between task gradients are a frequent issue degrading a model's training performance. This is commonly addressed by using the Gradient Projection algorithm PCGrad that often leads to faster convergence and improved performance metrics. In this work, we present a method to adapt this algorithm to simultaneously also perform task prioritization. Our approach differs from traditional task weighting performed by scaling task losses in that our weighting scheme applies only in cases where tasks are in conflict, but lets the training proceed unhindered otherwise. We replace task weighting factors by a probability distribution that determines which task gradients get projected in conflict cases. Our experiments on the nuScenes, CIFAR-100, and CelebA datasets confirm that our approach is a practical method for task weighting. Paired with multiple different task weighting schemes, we observe a significant improvement in the performance metrics of most tasks compared to Gradient Projection with uniform projection probabilities. | 翻訳日:2024-09-06 01:47:58 公開日:2024-09-03 |
# 差分介入データからの連関介入分布の推定
Estimating Joint interventional distributions from marginal interventional data ( http://arxiv.org/abs/2409.01794v1 ) ライセンス: Link先を確認 | Sergio Hernan Garrido Mejia, Elke Kirschbaum, Armin Kekić, Atalanti Mastakouri, | (参考訳) 本稿では,最大エントロピー原理を用いて全変数の連立条件分布を取得するために介入データを利用する方法を示す。
この目的のために、観測データに加えて介入データを利用するために、Causal Maximum Entropy法を拡張した。
ラグランジュ双対性を用いて、干渉制約を伴う因果最大エントロピー問題の解が、最大エントロピー解のように指数族にあることを証明する。
変数の任意の部分集合に対して境界介入分布が提供される場合,本手法は2つのタスクを利害関係で実行することができる。
まず、観察データと単変量干渉データの混合から因果的特徴選択を行う方法、および、共同介入分布を推定する方法を示す。
従来の課題では,提案手法はデータセットのマージにおける最先端の手法よりも優れており,全変数の合同観測を必要とするKCI-testに匹敵する結果が得られる。
In this paper we show how to exploit interventional data to acquire the joint conditional distribution of all the variables using the Maximum Entropy principle. To this end, we extend the Causal Maximum Entropy method to make use of interventional data in addition to observational data. Using Lagrange duality, we prove that the solution to the Causal Maximum Entropy problem with interventional constraints lies in the exponential family, as in the Maximum Entropy solution. Our method allows us to perform two tasks of interest when marginal interventional distributions are provided for any subset of the variables. First, we show how to perform causal feature selection from a mixture of observational and single-variable interventional data, and, second, how to infer joint interventional distributions. For the former task, we show on synthetically generated data, that our proposed method outperforms the state-of-the-art method on merging datasets, and yields comparable results to the KCI-test which requires access to joint observations of all variables. | 翻訳日:2024-09-06 01:47:58 公開日:2024-09-03 |
# 固体不変化の強化 - ポストデプロイからプレデプロイまで
Strengthening Solidity Invariant Generation: From Post- to Pre-Deployment ( http://arxiv.org/abs/2409.01804v1 ) ライセンス: Link先を確認 | Kartik Kaushik, Raju Halder, Samrat Mondal, | (参考訳) 不変性は、特にブロックチェーンの不変性と分散実行のコンテキストにおいて、Solidityスマートコントラクトのセキュリティと正しさを保証するために不可欠である。
本稿では、Solidityスマートコントラクトに特化した、事前デプロイ不変生成のための新しいフレームワークであるInvSolを紹介する。
InvCon、InvCon+、Trace2Invといった、Ethereumのメインネット上のデプロイ後のトランザクション履歴に依存する既存のソリューションとは異なり、InvSolはデプロイメント前に不変性を識別し、ループを含むSolidity言語構造を包括的にカバーする。
さらに、InvSolにはカスタムテンプレートが組み込まれており、リテンシ、ガス外エラー、不変生成時の例外といった重要な問題を効果的に防止している。
スマートコントラクトのベンチマークセットを使用して、InvSolを厳格に評価し、そのパフォーマンスを最先端のソリューションと比較する。
以上の結果から,InvSolはこれらのツールよりも優れており,トランザクション履歴の制限による新たなコントラクト処理の有効性が示された。
特に、InvSolは、InvCon+と比較して、共通脆弱性の特定において15%の改善を実現しており、Trace2Invよりも優れた、特定の不変テンプレートを使用して、特定の重要な脆弱性に対処することができる。
Invariants are essential for ensuring the security and correctness of Solidity smart contracts, particularly in the context of blockchain's immutability and decentralized execution. This paper introduces InvSol, a novel framework for pre-deployment invariant generation tailored specifically for Solidity smart contracts. Unlike existing solutions, namely InvCon, InvCon+, and Trace2Inv, that rely on post-deployment transaction histories on Ethereum mainnet, InvSol identifies invariants before deployment and offers comprehensive coverage of Solidity language constructs, including loops. Additionally, InvSol incorporates custom templates to effectively prevent critical issues such as reentrancy, out-of-gas errors, and exceptions during invariant generation. We rigorously evaluate InvSol using a benchmark set of smart contracts and compare its performance with state-of-the-art solutions. Our findings reveal that InvSol significantly outperforms these tools, demonstrating its effectiveness in handling new contracts with limited transaction histories. Notably, InvSol achieves a 15% improvement in identifying common vulnerabilities compared to InvCon+ and is able to address certain crucial vulnerabilities using specific invariant templates, better than Trace2Inv. | 翻訳日:2024-09-06 01:47:58 公開日:2024-09-03 |
# LASP:大規模言語モデル支援AI計画における現状調査
LASP: Surveying the State-of-the-Art in Large Language Model-Assisted AI Planning ( http://arxiv.org/abs/2409.01806v1 ) ライセンス: Link先を確認 | Haoming Li, Zhaoliang Chen, Jonathan Zhang, Fei Liu, | (参考訳) 効果的プランニングは、休暇の編成から自動運転車のルーティング、企業戦略の開発に至るまで、あらゆるタスクの成功に不可欠である。
目標を設定し、計画を定式化し、リソースを割り当てて達成する。
LLMは特に、コモンセンス推論の強い能力のため、自動計画に適している。
与えられた状態からゴールを達成するのに必要な一連のアクションを推論し、効果的な行動経路を特定することができる。
しかし、直接的なプロンプトによって生成された計画は実行時に失敗することが多い。
本調査は, 実施環境, 最適スケジューリング, 競争・協調ゲーム, タスク分解, 推論, 計画といった重要な領域に焦点を当て, 言語モデルを用いた計画における既存の課題を明らかにすることを目的としている。
本研究では,LLMがAI計画をどのように変革し,LM支援計画の将来に対するユニークな洞察を提供するかを検討する。
Effective planning is essential for the success of any task, from organizing a vacation to routing autonomous vehicles and developing corporate strategies. It involves setting goals, formulating plans, and allocating resources to achieve them. LLMs are particularly well-suited for automated planning due to their strong capabilities in commonsense reasoning. They can deduce a sequence of actions needed to achieve a goal from a given state and identify an effective course of action. However, it is frequently observed that plans generated through direct prompting often fail upon execution. Our survey aims to highlight the existing challenges in planning with language models, focusing on key areas such as embodied environments, optimal scheduling, competitive and cooperative games, task decomposition, reasoning, and planning. Through this study, we explore how LLMs transform AI planning and provide unique insights into the future of LM-assisted planning. | 翻訳日:2024-09-06 01:47:58 公開日:2024-09-03 |
# EPRecon:モノクルビデオからのリアルタイムパノプティクス3D再構成のための効率的なフレームワーク
EPRecon: An Efficient Framework for Real-Time Panoptic 3D Reconstruction from Monocular Video ( http://arxiv.org/abs/2409.01807v1 ) ライセンス: Link先を確認 | Zhen Zhou, Yunkai Ma, Junfeng Fan, Shaolin Zhang, Fengshui Jing, Min Tan, | (参考訳) 単眼映像からのパノプティカル3D再構成はロボットシーン理解の基本的な課題である。
しかし、既存の努力は推論速度と精度の点で非効率に悩まされ、実用性は制限される。
EPReconは,効率的なリアルタイムパノプティカル3D再構成フレームワークである。
現在のボリュームベース再構築法では,複数視点の深度マップを融合してシーンの深度を推定する手法が一般的である。
そこで本研究では,すべてのボクセルの占有確率を発生させることにより,3次元ボリュームのシーン深度を推定し,再現性の向上を図る軽量モジュールを提案する。
さらに、占有されたボクセルからよりリッチなパノプティクス特徴を推測するために、EPReconは、ボクセル特徴と対応する画像特徴の両方からパノプティクス特徴を抽出し、より詳細で包括的なインスタンスレベルのセマンティック情報を取得し、より正確なセグティファイション結果を得る。
ScanNetV2データセットによる実験結果から、EPReconが現在の最先端手法よりも、汎視的3D再構成品質とリアルタイム推論の両方で優れていることが示された。
コードはhttps://github.com/zhen6618/EPReconで入手できる。
Panoptic 3D reconstruction from a monocular video is a fundamental perceptual task in robotic scene understanding. However, existing efforts suffer from inefficiency in terms of inference speed and accuracy, limiting their practical applicability. We present EPRecon, an efficient real-time panoptic 3D reconstruction framework. Current volumetric-based reconstruction methods usually utilize multi-view depth map fusion to obtain scene depth priors, which is time-consuming and poses challenges to real-time scene reconstruction. To end this, we propose a lightweight module to directly estimate scene depth priors in a 3D volume for reconstruction quality improvement by generating occupancy probabilities of all voxels. In addition, to infer richer panoptic features from occupied voxels, EPRecon extracts panoptic features from both voxel features and corresponding image features, obtaining more detailed and comprehensive instance-level semantic information and achieving more accurate segmentation results. Experimental results on the ScanNetV2 dataset demonstrate the superiority of EPRecon over current state-of-the-art methods in terms of both panoptic 3D reconstruction quality and real-time inference. Code is available at https://github.com/zhen6618/EPRecon. | 翻訳日:2024-09-06 01:47:58 公開日:2024-09-03 |
# 信頼できる対話: 生成された会話に対する人間とAIの視点
Dialogue You Can Trust: Human and AI Perspectives on Generated Conversations ( http://arxiv.org/abs/2409.01808v1 ) ライセンス: Link先を確認 | Ike Ebubechukwu, Johane Takeuchi, Antonello Ceravola, Frank Joublin, | (参考訳) 対話システムやチャットボットが日々の対話にますます統合されるにつれて、効率的かつ正確な評価方法の必要性が最重要となる。
本研究では,コヒーレンス,イノベーション,具体性,ゴールコントリビューション,コモンセンス・コントラディション,不正事実,冗長性という7つの重要なパフォーマンス指標(KPI)に着目し,対話シナリオにおける人間とAIアセスメントの比較パフォーマンスについて検討する。
GPT-4o APIを用いて,多様な会話データセットを生成し,2つの実験分析を行った。
実験1では,コヒーレンス,イノベーション,具体性,ゴールコントリビューションに関する多人数会話を評価し,GPTモデルが人間の判断と密接に一致していることを明らかにした。
特に、人間とAIの評価者は線形スケーリングよりも二分判定の傾向を示し、これらの評価において共通の課題を浮き彫りにした。
実験2では、ディヤド対話に着目し、コモンセンス・コントラディクション、不正確なファクト、冗長性を評価することにより、フィンチらの作品(2023年)を拡張した。
その結果, GPT-4oは実測精度と常識推論の維持に強い性能を示すが, 冗長性と自己コントラクションの低減に苦慮していることが明らかとなった。
本研究は,対話システムにおける人間の評価を再現するGPTモデルの可能性を示すとともに,改善すべき領域を指摘するものである。
この研究は、より洗練された対話評価手法の開発と実装を促進するための貴重な洞察を与え、より効果的で人間らしいAIコミュニケーションツールの進化に寄与する。
As dialogue systems and chatbots increasingly integrate into everyday interactions, the need for efficient and accurate evaluation methods becomes paramount. This study explores the comparative performance of human and AI assessments across a range of dialogue scenarios, focusing on seven key performance indicators (KPIs): Coherence, Innovation, Concreteness, Goal Contribution, Commonsense Contradiction, Incorrect Fact, and Redundancy. Utilizing the GPT-4o API, we generated a diverse dataset of conversations and conducted a two-part experimental analysis. In Experiment 1, we evaluated multi-party conversations on Coherence, Innovation, Concreteness, and Goal Contribution, revealing that GPT models align closely with human judgments. Notably, both human and AI evaluators exhibited a tendency towards binary judgment rather than linear scaling, highlighting a shared challenge in these assessments. Experiment 2 extended the work of Finch et al. (2023) by focusing on dyadic dialogues and assessing Commonsense Contradiction, Incorrect Fact, and Redundancy. The results indicate that while GPT-4o demonstrates strong performance in maintaining factual accuracy and commonsense reasoning, it still struggles with reducing redundancy and self-contradiction. Our findings underscore the potential of GPT models to closely replicate human evaluation in dialogue systems, while also pointing to areas for improvement. This research offers valuable insights for advancing the development and implementation of more refined dialogue evaluation methodologies, contributing to the evolution of more effective and human-like AI communication tools. | 翻訳日:2024-09-06 01:47:58 公開日:2024-09-03 |
# 対立音声の文脈における雑音増強手法の再評価
Reassessing Noise Augmentation Methods in the Context of Adversarial Speech ( http://arxiv.org/abs/2409.01813v1 ) ライセンス: Link先を確認 | Karla Pizzi, Matías P. Pizarro B, Asja Fischer, | (参考訳) 本研究では,自動音声認識(ASR)システムにおいて,雑音増強訓練が対向的頑健性を同時に改善できるかどうかを検討する。
ASRアーキテクチャは、背景雑音、速度変動、残響の3つの異なる拡張条件下で訓練され、もう1つは速度変化のみのものであり、もう1つはデータ拡張の形式を持たないものである。
その結果,雑音の増大は雑音音声のモデル性能を向上するだけでなく,敵攻撃に対するモデルの堅牢性も向上することが示された。
In this study, we investigate if noise-augmented training can concurrently improve adversarial robustness in automatic speech recognition (ASR) systems. We conduct a comparative analysis of the adversarial robustness of four different state-of-the-art ASR architectures, where each of the ASR architectures is trained under three different augmentation conditions: one subject to background noise, speed variations, and reverberations, another subject to speed variations only, and a third without any form of data augmentation. The results demonstrate that noise augmentation not only improves model performance on noisy speech but also the model's robustness to adversarial attacks. | 翻訳日:2024-09-06 01:47:58 公開日:2024-09-03 |
# Segmenting Object Affordances: Reproducibility and Sensitivity to Scale
Segmenting Object Affordances: Reproducibility and Sensitivity to Scale ( http://arxiv.org/abs/2409.01814v1 ) ライセンス: Link先を確認 | Tommaso Apicella, Alessio Xompero, Paolo Gastaldo, Andrea Cavallaro, | (参考訳) 視覚的割当セグメンテーションは、エージェントが対話できるオブジェクトの画像領域を特定する。
既存の手法では、セマンティックセグメンテーションのための学習に基づくアーキテクチャをアベイランスセグメンテーションタスクに再利用し、小型データセットで評価する。
しかし、実験的な設定は再現できないことが多く、不公平で矛盾した比較に繋がる。
本研究では,これらの手法を2つの単一オブジェクトのシナリオであるテーブルトップとハンドヘルドコンテナ上で再現可能な設定でベンチマークし,将来の比較を容易にする。
最近のアーキテクチャであるMask2Formerは、割当セグメンテーションのために再訓練され、このモデルが両方のシナリオのほとんどのテストセットで最高のパフォーマンスを示している。
我々の分析は、オブジェクトの解像度がトレーニングセットと異なる場合、モデルは変動をスケールするのに堅牢ではないことを示している。
Visual affordance segmentation identifies image regions of an object an agent can interact with. Existing methods re-use and adapt learning-based architectures for semantic segmentation to the affordance segmentation task and evaluate on small-size datasets. However, experimental setups are often not reproducible, thus leading to unfair and inconsistent comparisons. In this work, we benchmark these methods under a reproducible setup on two single objects scenarios, tabletop without occlusions and hand-held containers, to facilitate future comparisons. We include a version of a recent architecture, Mask2Former, re-trained for affordance segmentation and show that this model is the best-performing on most testing sets of both scenarios. Our analysis shows that models are not robust to scale variations when object resolutions differ from those in the training set. | 翻訳日:2024-09-06 01:47:58 公開日:2024-09-03 |
# リワークによる動的技術者ルーティングのための状態依存型政策パラメトリゼーションの学習
Learning State-Dependent Policy Parametrizations for Dynamic Technician Routing with Rework ( http://arxiv.org/abs/2409.01815v1 ) ライセンス: Link先を確認 | Jonas Stein, Florentin D Hildebrandt, Barrett W Thomas, Marlin W Ulmer, | (参考訳) 家庭の修理と設置には、技術者が顧客を訪れ、異なる複雑さのタスクを解決する必要がある。
技術者はしばしば異質な技術と労働経験を持っている。
顧客の地理的拡散は、技術者のスキルとタスク要求の完全な一致を非現実的に達成するだけである。
さらに、技術者は病気のために定期的に欠席している。
タスク要件と技術者のスキルに関する完全な課題では、いくつかのタスクは未解決のままであり、再検討と再作業が必要である。
企業は遅延による顧客の不便を最小化しようとしている。
我々は、問題をシーケンシャルな意思決定プロセスとしてモデル化し、多くのサービスデイにおいて、顧客がサービスを要求する一方で、不均一に熟練した技術者がシステム内の顧客にサービスを提供するようにルーティングされる。
当社のポリシーは,毎日,"重要な"顧客を追加することで,ツアーを反復的に構築しています。
重要度は、ルーティング効率、サービスの緊急性、再作業のリスクを考慮し、分析的考察に基づいて測定される。
本稿では、これらの要因の国家依存的バランスを強化学習を通して提案する。
包括的な調査では、いくつかの非完全な割り当てをすることで、サービス品質全体にとって非常に有益であることが示されています。
さらに、状態依存パラメトリゼーションによって提供される値を示す。
Home repair and installation services require technicians to visit customers and resolve tasks of different complexity. Technicians often have heterogeneous skills and working experiences. The geographical spread of customers makes achieving only perfect matches between technician skills and task requirements impractical. Additionally, technicians are regularly absent due to sickness. With non-perfect assignments regarding task requirement and technician skill, some tasks may remain unresolved and require a revisit and rework. Companies seek to minimize customer inconvenience due to delay. We model the problem as a sequential decision process where, over a number of service days, customers request service while heterogeneously skilled technicians are routed to serve customers in the system. Each day, our policy iteratively builds tours by adding "important" customers. The importance bases on analytical considerations and is measured by respecting routing efficiency, urgency of service, and risk of rework in an integrated fashion. We propose a state-dependent balance of these factors via reinforcement learning. A comprehensive study shows that taking a few non-perfect assignments can be quite beneficial for the overall service quality. We further demonstrate the value provided by a state-dependent parametrization. | 翻訳日:2024-09-06 01:47:58 公開日:2024-09-03 |
# GeoBEV:多視点3次元物体検出のための幾何学的BEV表現の学習
GeoBEV: Learning Geometric BEV Representation for Multi-view 3D Object Detection ( http://arxiv.org/abs/2409.01816v1 ) ライセンス: Link先を確認 | Jinqing Zhang, Yanan Zhang, Yunlong Qi, Zehua Fu, Qingjie Liu, Yunhong Wang, | (参考訳) Bird's-Eye-View (BEV)表現は、マルチビュー3Dオブジェクト検出の主流パラダイムとして現れ、印象的な知覚能力を示している。
しかし、既存の方法では、BEV表現の幾何学的品質を見落とし、解像度の低い状態のままにして、シーンの正確な幾何学的情報を復元することができない。
本稿では,従来の手法が低BEV表現の解像度で制約されている理由を特定し,複雑な演算子を必要とせずに高解像度の高密度BEV表現を効率的に生成できるラジアル・カルテシアン型BEVサンプリング(RC-Sampling)を提案する。
さらに,従来の深度ラベルをLiDARポイントから置き換える新しいIn-Box Labelを設計する。
このラベルは、物体の表面だけでなく実際の幾何学構造を反映し、実際の幾何学情報をBEV表現に注入する。
さらに、In-Box Labelと組み合わせて、CAIロス(Centroid-Aware inner Loss)が開発され、オブジェクトの内部幾何学的構造が詳細に把握される。
最後に、上記のモジュールをGeoBEVと呼ばれる新しいマルチビュー3Dオブジェクト検出フレームワークに統合する。
nuScenesデータセットに関する大規模な実験は、GeoBEVが最先端のパフォーマンスを達成し、その効果を強調していることを示している。
Bird's-Eye-View (BEV) representation has emerged as a mainstream paradigm for multi-view 3D object detection, demonstrating impressive perceptual capabilities. However, existing methods overlook the geometric quality of BEV representation, leaving it in a low-resolution state and failing to restore the authentic geometric information of the scene. In this paper, we identify the reasons why previous approaches are constrained by low BEV representation resolution and propose Radial-Cartesian BEV Sampling (RC-Sampling), enabling efficient generation of high-resolution dense BEV representations without the need for complex operators. Additionally, we design a novel In-Box Label to substitute the traditional depth label generated from the LiDAR points. This label reflects the actual geometric structure of objects rather than just their surfaces, injecting real-world geometric information into the BEV representation. Furthermore, in conjunction with the In-Box Label, a Centroid-Aware Inner Loss (CAI Loss) is developed to capture the fine-grained inner geometric structure of objects. Finally, we integrate the aforementioned modules into a novel multi-view 3D object detection framework, dubbed GeoBEV. Extensive experiments on the nuScenes dataset exhibit that GeoBEV achieves state-of-the-art performance, highlighting its effectiveness. | 翻訳日:2024-09-06 01:47:58 公開日:2024-09-03 |
# 集団知能のDAO : 分散型自治組織におけるブロックチェーンガバナンスの複雑さの解明
DAOs of Collective Intelligence? Unraveling the Complexity of Blockchain Governance in Decentralized Autonomous Organizations ( http://arxiv.org/abs/2409.01823v1 ) ライセンス: Link先を確認 | Mark C. Ballandies, Dino Carpentras, Evangelos Pournaras, | (参考訳) 分散型自律組織(DAO)は、ブロックチェーンと暗号経済学を活用して、従来の階層的なコントロールから分散化されたアプローチに移行することで、組織構造を変革した。
DAOは重要な資金を管理し、グローバルネットワークを構築するが、参加の減少、集中化の増大、変化する環境への適応能力の低下など、イノベーションを阻害する課題に直面している。
本稿では,DAOを複雑系として検討し,その非効率性を説明するために複雑性科学を適用した。
特に,DAOの課題とその複雑な性質について論じ,集団知性,デジタル民主主義,適応の自己組織化メカニズムを紹介する。
DAOの設計と構築を改善するためにこれらの機構を適用することにより、DAOのための実用的な設計フレームワークを作成する。
この貢献は、複雑性科学とDAOの交差点における将来の研究の基盤となる。
Decentralized autonomous organizations (DAOs) have transformed organizational structures by shifting from traditional hierarchical control to decentralized approaches, leveraging blockchain and cryptoeconomics. Despite managing significant funds and building global networks, DAOs face challenges like declining participation, increasing centralization, and inabilities to adapt to changing environments, which stifle innovation. This paper explores DAOs as complex systems and applies complexity science to explain their inefficiencies. In particular, we discuss DAO challenges, their complex nature, and introduce the self-organization mechanisms of collective intelligence, digital democracy, and adaptation. By applying these mechansims to improve DAO design and construction, a practical design framework for DAOs is created. This contribution lays a foundation for future research at the intersection of complexity science and DAOs. | 翻訳日:2024-09-06 01:47:58 公開日:2024-09-03 |
# DarthShader: WebGPUシェーダのトランスレータとコンパイラの融合
DarthShader: Fuzzing WebGPU Shader Translators & Compilers ( http://arxiv.org/abs/2409.01824v1 ) ライセンス: Link先を確認 | Lukas Bernhard, Nico Schiller, Moritz Schloegel, Nils Bars, Thorsten Holz, | (参考訳) ビデオゲームやクライアントサイドのLLMといったより要求の多いWebアプリケーションをブラウザで実行しようとする最近のトレンドは、WebGPU標準を採用して、GPUをWebサイトに公開するクロスプラットフォームAPIを提供している。
信頼できないWebコンテンツは、伝統的にセキュリティではなくパフォーマンスのために最適化されたGPUスタックに渡される。
さらに悪いことに、WebGPUの大部分は、他のWebコンテンツを管理するサンドボックスプロセスでは実行できません。
その重要性とは対照的に、WebGPUシェーダ処理は自動テストコミュニティから驚くほど注目を集めていない。
理由の1つは、シェーダートランスレータが高度に構造化され静的な入力を期待しているため、典型的なファジング突然変異は効果がない。
テストをさらに複雑にすることで、シェーダ変換は複雑なマルチステップコンパイルパイプラインで構成され、各ステージは独自の要件と課題を提示する。
本稿では,中間表現に基づくミュータと,より伝統的な抽象構文木を用いたミュータを組み合わせた最初の言語ファザであるDarthShaderを提案する。
キーとなる考え方は、シェーダコンパイルパイプラインの個々のステージは、さまざまな障害のクラスに影響を受けやすく、徹底的なテストのために全く異なる突然変異戦略を必要とすることである。
パイプライン全体をファジングすることで、現実的なアタッカーモデルを確実に維持できます。
経験的評価では,コードカバレッジに関する最先端のファジイザよりも優れていることを示す。
さらに、広範囲にわたるアブレーション研究は、我々のキーデザインを検証する。
DarthShader氏は、現在のすべてのブラウザ(Chrome、Firefox、Safari)で合計39のソフトウェア欠陥を発見した。
そのうち15人については、ChromeチームがCVEを割り当て、結果の影響を認めました。
A recent trend towards running more demanding web applications, such as video games or client-side LLMs, in the browser has led to the adoption of the WebGPU standard that provides a cross-platform API exposing the GPU to websites. This opens up a new attack surface: Untrusted web content is passed through to the GPU stack, which traditionally has been optimized for performance instead of security. Worsening the problem, most of WebGPU cannot be run in the tightly sandboxed process that manages other web content, which eases the attacker's path to compromising the client machine. Contrasting its importance, WebGPU shader processing has received surprisingly little attention from the automated testing community. Part of the reason is that shader translators expect highly structured and statically typed input, which renders typical fuzzing mutations ineffective. Complicating testing further, shader translation consists of a complex multi-step compilation pipeline, each stage presenting unique requirements and challenges. In this paper, we propose DarthShader, the first language fuzzer that combines mutators based on an intermediate representation with those using a more traditional abstract syntax tree. The key idea is that the individual stages of the shader compilation pipeline are susceptible to different classes of faults, requiring entirely different mutation strategies for thorough testing. By fuzzing the full pipeline, we ensure that we maintain a realistic attacker model. In an empirical evaluation, we show that our method outperforms the state-of-the-art fuzzers regarding code coverage. Furthermore, an extensive ablation study validates our key design. DarthShader found a total of 39 software faults in all modern browsers -- Chrome, Firefox, and Safari -- that prior work missed. For 15 of them, the Chrome team assigned a CVE, acknowledging the impact of our results. | 翻訳日:2024-09-06 01:47:58 公開日:2024-09-03 |
# AstroMAE: 新しいファインチューニングアーキテクチャを用いたマスク付きオートエンコーダによる赤方偏移予測
AstroMAE: Redshift Prediction Using a Masked Autoencoder with a Novel Fine-Tuning Architecture ( http://arxiv.org/abs/2409.01825v1 ) ライセンス: Link先を確認 | Amirreza Dolatpour Fathkouhi, Geoffrey Charles Fox, | (参考訳) 赤偏移予測は天文学の基本的な課題であり、宇宙の膨張を理解し、天体の距離を決定するのに不可欠である。
正確な赤方偏移予測は、宇宙の知識を前進させる上で重要な役割を果たす。
機械学習(ML)メソッドは、精度とスピードで知られており、この複雑なタスクに対して有望なソリューションを提供する。
しかし、従来のMLアルゴリズムはラベル付きデータとタスク固有の特徴抽出に大きく依存している。
これらの制限を克服するために,Sloan Digital Sky Survey (SDSS) 画像のマスク付きオートエンコーダ法を用いて視覚変換器エンコーダを事前訓練する革新的なアプローチである AstroMAE を導入する。
この技術により、エンコーダはラベルに頼ることなく、データ内のグローバルパターンをキャプチャできる。
我々の知る限りでは、AstroMAEは天体データに対するマスク付きオートエンコーダの最初の応用である。
事前学習フェーズ中にラベルを無視することにより、エンコーダはデータの一般的な理解を集める。
事前訓練されたエンコーダは、その後、レッドシフト予測用に調整された特別なアーキテクチャ内で微調整される。
我々は,様々な視覚変換器アーキテクチャとCNNモデルに対して評価を行い,アストロマエの事前学習モデルと微調整アーキテクチャの優れた性能を実証した。
Redshift prediction is a fundamental task in astronomy, essential for understanding the expansion of the universe and determining the distances of astronomical objects. Accurate redshift prediction plays a crucial role in advancing our knowledge of the cosmos. Machine learning (ML) methods, renowned for their precision and speed, offer promising solutions for this complex task. However, traditional ML algorithms heavily depend on labeled data and task-specific feature extraction. To overcome these limitations, we introduce AstroMAE, an innovative approach that pretrains a vision transformer encoder using a masked autoencoder method on Sloan Digital Sky Survey (SDSS) images. This technique enables the encoder to capture the global patterns within the data without relying on labels. To the best of our knowledge, AstroMAE represents the first application of a masked autoencoder to astronomical data. By ignoring labels during the pretraining phase, the encoder gathers a general understanding of the data. The pretrained encoder is subsequently fine-tuned within a specialized architecture tailored for redshift prediction. We evaluate our model against various vision transformer architectures and CNN-based models, demonstrating the superior performance of AstroMAEs pretrained model and fine-tuning architecture. | 翻訳日:2024-09-06 01:47:58 公開日:2024-09-03 |
# ケースコントロールデータと外部要約情報を用いた深部非パラメトリックロジスティックモデル
Deep non-parametric logistic model with case-control data and external summary information ( http://arxiv.org/abs/2409.01829v1 ) ライセンス: Link先を確認 | Hengchao Shi, Ming Zheng, Wen Yu, | (参考訳) ケースコントロールサンプリング設計は、バイナリデータで観測される不均衡構造を緩和するための重要な戦略として機能する。
外部要約情報によって補足されたケース制御データを用いた非パラメトリックロジスティックモデルの推定を検討する。
外部要約情報の取り込みはモデルの識別可能性を保証する。
本稿では,2段階推定手法を提案する。
第1ステップでは、外部情報を用いて、限界ケース割合を推定する。
2番目のステップでは、推定比率を用いてパラメータトレーニングのための重み付けされた目的関数を構築する。
機能近似にはディープニューラルネットワークアーキテクチャが使用される。
さらに、提案した推定器の非漸近誤差境界を導出する。
その後、収束速度が得られ、非パラメトリック回帰推定の最適速度に達することが示される。
提案手法の理論的結果を評価するためにシミュレーション研究を行った。
実データ例を例証として分析する。
The case-control sampling design serves as a pivotal strategy in mitigating the imbalanced structure observed in binary data. We consider the estimation of a non-parametric logistic model with the case-control data supplemented by external summary information. The incorporation of external summary information ensures the identifiability of the model. We propose a two-step estimation procedure. In the first step, the external information is utilized to estimate the marginal case proportion. In the second step, the estimated proportion is used to construct a weighted objective function for parameter training. A deep neural network architecture is employed for functional approximation. We further derive the non-asymptotic error bound of the proposed estimator. Following this the convergence rate is obtained and is shown to reach the optimal speed of the non-parametric regression estimation. Simulation studies are conducted to evaluate the theoretical findings of the proposed method. A real data example is analyzed for illustration. | 翻訳日:2024-09-06 01:47:58 公開日:2024-09-03 |
# 制約のない機能を超えて: 一般データ付き浅層ニューラルネットワークのためのニューラルネットワークのニューラルネットワーク崩壊
Beyond Unconstrained Features: Neural Collapse for Shallow Neural Networks with General Data ( http://arxiv.org/abs/2409.01832v1 ) ライセンス: Link先を確認 | Wanli Hong, Shuyang Ling, | (参考訳) ニューラル崩壊(Neural collapse, NC)は、ディープニューラルネットワーク(DNN)のトレーニング(TPT)の最終段階に発生する現象である。
また、各サンプル手段に同級データの特徴が崩壊し、サンプル手段は、単純な等角形状のタイトフレーム(ETF)を示す。
過去数年間、NCがなぜ発生し、それが一般化にどのように影響するかを説明することに焦点を当てた研究が急増している。
DNNは分析が難しいことで知られているため、ほとんどの研究は主に制約のない機能モデル(UFM)に焦点を当てている。
UFMはNCをある程度説明しているが、ネットワークアーキテクチャとデータセットがNCにどのように影響するかの完全な図は提供していない。
本研究では、浅いReLUニューラルネットワークに着目し、トレーニングデータセットの幅、深さ、データ次元、統計的性質が神経崩壊に与える影響を理解する。
2層または3層ニューラルネットワークでNCが発生した場合の完全な特徴付けを提供する。
2層ReLUニューラルネットワークの場合、正規化された経験的リスク関数のグローバル最小化器がNC構成を示すときの十分条件は、ネットワーク幅ではなく、データ次元、サンプルサイズ、信号対雑音比に依存する。
3層ニューラルネットワークでは,第1層が十分に広い範囲でNCが発生することを示す。
NCと一般化の関係について、一般化はデータのSNR(signal-to-noise ratio)に大きく依存していることを示す。
この結果は, 浅い非線形ネットワーク下でのNCの出現を特徴付けるとともに, データ特性やネットワークアーキテクチャにどのように依存するかを特徴付けることにより, FM下でのNCの最先端理論解析を著しく拡張する。
Neural collapse (NC) is a phenomenon that emerges at the terminal phase of the training (TPT) of deep neural networks (DNNs). The features of the data in the same class collapse to their respective sample means and the sample means exhibit a simplex equiangular tight frame (ETF). In the past few years, there has been a surge of works that focus on explaining why the NC occurs and how it affects generalization. Since the DNNs are notoriously difficult to analyze, most works mainly focus on the unconstrained feature model (UFM). While the UFM explains the NC to some extent, it fails to provide a complete picture of how the network architecture and the dataset affect NC. In this work, we focus on shallow ReLU neural networks and try to understand how the width, depth, data dimension, and statistical property of the training dataset influence the neural collapse. We provide a complete characterization of when the NC occurs for two or three-layer neural networks. For two-layer ReLU neural networks, a sufficient condition on when the global minimizer of the regularized empirical risk function exhibits the NC configuration depends on the data dimension, sample size, and the signal-to-noise ratio in the data instead of the network width. For three-layer neural networks, we show that the NC occurs as long as the first layer is sufficiently wide. Regarding the connection between NC and generalization, we show the generalization heavily depends on the SNR (signal-to-noise ratio) in the data: even if the NC occurs, the generalization can still be bad provided that the SNR in the data is too low. Our results significantly extend the state-of-the-art theoretical analysis of the N C under the UFM by characterizing the emergence of the N C under shallow nonlinear networks and showing how it depends on data properties and network architecture. | 翻訳日:2024-09-06 01:36:22 公開日:2024-09-03 |
# ファウショット視覚認識のための生成型クラスプロンプト学習に向けて
Towards Generative Class Prompt Learning for Few-shot Visual Recognition ( http://arxiv.org/abs/2409.01835v1 ) ライセンス: Link先を確認 | Soumitri Chattopadhyay, Sanket Biswas, Emanuele Vivoli, Josep Lladós, | (参考訳) 基本的な視覚言語モデル(VLM)は、様々な意味的識別タスクにおいて非常に成功したことが証明されているが、細かな分類のために忠実に実行するのに苦慮している。
さらに、ある領域で訓練された基礎モデルは、微調整なしでは別の領域でうまく一般化しない。
我々はこれらがVLMのセマンティック表現の限界に起因し、生成モデルを用いて細粒度の視覚的認識を改善する試みを行っている。
具体的には,ジェネレーティブ・クラス・プロンプト・ラーニング(GCPL)とコントラシティブ・マルチクラス・プロンプト・ラーニング(CoMPLe)の2つの新しい手法を提案する。
テキストと画像の拡散モデルを利用することで、GCPLは学習可能なクラスプロンプトを持つ数ショットの例に条件付けすることで、クラス埋め込みにおける視覚言語相乗効果を著しく改善する。
CoMPLeはこの基盤の上に構築されており、生成最適化プロセス中にクラス間の分離を促進する対照的な学習コンポーネントを導入している。
実験結果から、このような生成的クラスプロンプト学習アプローチが既存の手法を大幅に上回っていることが示され、ショット画像認識の課題に対するより良い代替手段が提供される。
ソースコードは、https://github.com/soumitri2001/GCPL.comで入手できる。
Although foundational vision-language models (VLMs) have proven to be very successful for various semantic discrimination tasks, they still struggle to perform faithfully for fine-grained categorization. Moreover, foundational models trained on one domain do not generalize well on a different domain without fine-tuning. We attribute these to the limitations of the VLM's semantic representations and attempt to improve their fine-grained visual awareness using generative modeling. Specifically, we propose two novel methods: Generative Class Prompt Learning (GCPL) and Contrastive Multi-class Prompt Learning (CoMPLe). Utilizing text-to-image diffusion models, GCPL significantly improves the visio-linguistic synergy in class embeddings by conditioning on few-shot exemplars with learnable class prompts. CoMPLe builds on this foundation by introducing a contrastive learning component that encourages inter-class separation during the generative optimization process. Our empirical results demonstrate that such a generative class prompt learning approach substantially outperform existing methods, offering a better alternative to few shot image recognition challenges. The source code will be made available at: https://github.com/soumitri2001/GCPL. | 翻訳日:2024-09-06 01:36:22 公開日:2024-09-03 |
# 単一分子放出周波数とスペクトル拡散の高度制御
Enhanced control of single-molecule emission frequency and spectral diffusion ( http://arxiv.org/abs/2409.01840v1 ) ライセンス: Link先を確認 | Rocco Duquennoy, Simon Landrieux, Daniele De Bernardis, Juergen Mony, Maja Colautti, Lin Jin, Wolfram H. P. Pernice, Costanza Toninelli, | (参考訳) スターク効果は、分子、原子、電子遷移のスペクトルを概してシフトさせる強力な方法を提供し、静電場を用いて量子エミッターの周波数を調整するための最も単純かつ単純な方法の1つである。
同時に、電荷ノイズに対するエミッター感度を低減するために、逆対称系は典型的には設計され、印加磁場に2次のみ依存する安定した発光周波数を提供する。
しかし、そのような非線形挙動は、チューニング能力と望ましくないスペクトル変動の間の相関関係を反映する可能性がある。
ここでは、固体状態の分子量子エミッタを用いて、液体ヘリウム温度まで冷却されたこの傾向の実験的証拠を提供する。
最終的に、電極によって生成された電界は、分子誘起双極子と平行な結果となり、長寿命の電荷状態を光学的に励起し、垂直方向に作用する。
分子の偏光性の異方性に基づいて、局所電界の2次元制御により、エミッタの周波数を調整できるだけでなく、磁場のゆらぎに関連するスペクトル不安定性を適切に抑制できる。
The Stark effect provides a powerful method to shift the spectra of molecules, atoms and electronic transitions in general, becoming one of the simplest and most straightforward way to tune the frequency of quantum emitters by means of a static electric field. At the same time, in order to reduce the emitter sensitivity to charge noise, inversion symmetric systems are typically designed, providing a stable emission frequency, with a quadratic-only dependence on the applied field. However, such nonlinear behaviour might reflect in correlations between the tuning ability and unwanted spectral fluctuations. Here, we provide experimental evidence of this trend, using molecular quantum emitters in the solid state cooled down to liquid helium temperatures. We finally combine the electric field generated by electrodes, which results parallel to the molecule induced dipole, to optically excite long-lived charge states, acting in the perpendicular direction. Based on the anisotropy of the molecule's polarizability, our two-dimensional control of the local electric field allows not only to tune the emitter's frequency but also to sensibly suppress the spectral instabilities associated to field fluctuations. | 翻訳日:2024-09-06 01:36:22 公開日:2024-09-03 |
# AgentRE:関係抽出による複雑な情報景観をナビゲートするエージェントベースフレームワーク
AgentRE: An Agent-Based Framework for Navigating Complex Information Landscapes in Relation Extraction ( http://arxiv.org/abs/2409.01854v1 ) ライセンス: Link先を確認 | Yuchen Shi, Guochao Jiang, Tian Qiu, Deqing Yang, | (参考訳) 複雑なシナリオにおける関係抽出(RE)は、多種多様な関係型や単一の文内でのエンティティ間のあいまいな関係のような課題に直面し、純粋な"text-in, text-out"言語モデル(LM)の貧弱なパフォーマンスをもたらす。
本稿では,メモリ,検索,リフレクションを含む大規模言語モデル(LLM)の可能性をフル活用し,複雑なシナリオにおいてREを実現するためのエージェントベースのREフレームワークであるAgentREを提案する。
具体的には、3つの主要なモジュールがエージェントとしてAgentRE内に構築され、エージェントが様々な有用な情報を取得し、処理し、それによって改善されたREパフォーマンスを得るのに役立つ。
英語と中国語の2つのデータセットに対する大規模な実験結果からは、特に低リソースシナリオにおいて、AgentREの優れたパフォーマンスが示されている。
さらに、AgentREによって生成されたトラジェクトリを洗練して、より小さなモデルを微調整するために使用できる、さまざまな推論手法を取り入れた高品質なトレーニングデータセットを構築することもできる。
コードはhttps://github.com/Lightblues/AgentREで入手できる。
The relation extraction (RE) in complex scenarios faces challenges such as diverse relation types and ambiguous relations between entities within a single sentence, leading to the poor performance of pure "text-in, text-out" language models (LMs). To address these challenges, in this paper, we propose an agent-based RE framework, namely AgentRE, which fully leverages the potential of large language models (LLMs) including memory, retrieval and reflection, to achieve RE in complex scenarios. Specifically, three major modules are built in AgentRE serving as the tools to help the agent acquire and process various useful information, thereby obtaining improved RE performance. Our extensive experimental results upon two datasets in English and Chinese demonstrate our AgentRE's superior performance, especially in low-resource scenarios. Additionally, the trajectories generated by AgentRE can be refined to construct a high-quality training dataset incorporating different reasoning methods, which can be used to fine-tune smaller models. Code is available at https://github.com/Lightblues/AgentRE. | 翻訳日:2024-09-06 01:36:22 公開日:2024-09-03 |
# グラフに基づく緊急サービス通信システムのモデリングとシミュレーション
Graph-based Modeling and Simulation of Emergency Services Communication Systems ( http://arxiv.org/abs/2409.01855v1 ) ライセンス: Link先を確認 | Jardi Martinez Jordan, Michael Stiber, | (参考訳) 緊急サービス通信システム(ESCS)は、インターネットプロトコルベースの通信ネットワークに進化し、その機能、可用性、レジリエンスの強化を約束している。
この複雑さとサイバー攻撃面の増加は、極端な状況下でこれらのシステムの破壊力学をよりよく理解する必要がある。
ESCSの既存の研究は、主にシミュレーションを見落としており、現存する小さな研究はサイバーセキュリティの脅威に重点を置いており、通話到着の非定常性のような重要な要素を無視している。
本稿では,頑健で適応可能なグラフベースシミュレーションフレームワークと,ESCSシミュレーションに不可欠な数学的モデルを紹介する。
このフレームワークはESCSの表現を使用し、各頂点はエッジに沿ってメッセージを交換する通信有限状態マシンであり、その振る舞いは離散的なイベントキューイングモデルによって制御される。
コールの到着バーストネスとその緊急インシデントへの接続は、クラスタポイントプロセスを通じてモデル化される。
モデル適用性はシアトル警察署ESCSのシミュレーションによって実証される。
現在進行中の作業は、GPUの実装を開発し、サイバーセキュリティテーブルトップエクササイズでの使用を模索している。
Emergency Services Communication Systems (ESCS) are evolving into Internet Protocol based communication networks, promising enhancements to their function, availability, and resilience. This increase in complexity and cyber-attack surface demands better understanding of these systems' breakdown dynamics under extreme circumstances. Existing ESCS research largely overlooks simulation and the little work that exists focuses primarily on cybersecurity threats and neglects critical factors such as non-stationarity of call arrivals. This paper introduces a robust, adaptable graph-based simulation framework and essential mathematical models for ESCS simulation. The framework uses a representation of ESCSes where each vertex is a communicating finite-state machine that exchanges messages along edges and whose behavior is governed by a discrete event queuing model. Call arrival burstiness and its connection to emergency incidents is modeled through a cluster point process. Model applicability is demonstrated through simulations of the Seattle Police Department ESCS. Ongoing work is developing GPU implementation and exploring use in cybersecurity tabletop exercises. | 翻訳日:2024-09-06 01:36:22 公開日:2024-09-03 |
# 平均二乗群距離を用いた2次LiDARバンドル調整アルゴリズム
Explicit Second-order LiDAR Bundle Adjustment Algorithm Using Mean Squared Group Metric ( http://arxiv.org/abs/2409.01856v1 ) ライセンス: Link先を確認 | Tingchen Ma, Yongsheng Ou, Sheng Xu, | (参考訳) Bundle Adjustment (BA)アルゴリズムは、SLAMシステムのバックエンドで広く使われている非線形最適化手法である。
複数の視点からランドマークのコビュー関係を活用することで、ポーズとランドマークの両方のジョイント推定モデルを構築し、洗練されたマップを生成し、フロントエンドのローカライゼーションエラーを低減することができる。
しかし、BAをLiDARデータに適用することは、通常点雲に存在する大量の3Dポイントにより、より堅牢で正確なモデルの解法がより複雑になるため、ユニークな課題を示す。
本研究では,新しい平均二乗計量(MSGM)を提案する。
この計量は平均二乗変換を適用し、1つの視点から平面ランドマークの測定を均一に処理する。
変換されたメートル法は、時間を要するポイント・バイ・ポイントの計算を避けながら、スケールの解釈可能性を保証する。
堅牢なカーネル関数を統合することで、BAモデルに関わるメトリクスを再重み付けし、ソリューションプロセスの堅牢性を高める。
提案したロバストなLiDAR BAモデルに基づいて,明示的な2次推定器 (RSO-BA) を導出した。
この推定器はヘッセンおよび勾配の計算に解析公式を使用し、BA溶液の精度を保証している。
提案したROS-BA推定器を,公開データセットを用いて既存の暗黙の2次および明示的な近似2次推定器に対して評価した。
実験結果から, RSO-BA推定器は, 大規模・複雑な非構造環境において, 登録精度とロバスト性において, 高い性能を示した。
The Bundle Adjustment (BA) algorithm is a widely used nonlinear optimization technique in the backend of Simultaneous Localization and Mapping (SLAM) systems. By leveraging the co-view relationships of landmarks from multiple perspectives, it constructs a joint estimation model for both poses and landmarks, enabling the system to generate refined maps and reduce front-end localization errors. However, applying BA to LiDAR data presents unique challenges due to the large volume of 3D points typically present in point clouds, making robust and accurate model solving more complex. In this work, we propose a novel mean square group metric (MSGM). This metric applies mean square transformation to uniformly process the measurement of plane landmarks from a single perspective. The transformed metric ensures scale interpretability while avoiding the time-consuming point-by-point calculations. By integrating a robust kernel function, the metrics involved in the BA model are reweighted, enhancing the robustness of the solution process. On the basis of the proposed robust LiDAR BA model, we derived an explicit second-order estimator (RSO-BA). This estimator employs analytical formulas for Hessian and gradient calculations, ensuring the precision of the BA solution. We evaluated the proposed RSO-BA estimator against existing implicit second-order and explicit approximate second-order estimators using the publicly available datasets. The experimental results demonstrate that the RSO-BA estimator outperforms its counterparts regarding registration accuracy and robustness, particularly in large-scale or complex unstructured environments. | 翻訳日:2024-09-06 01:36:22 公開日:2024-09-03 |
# 高パッシブ安定性とマイクロ波集積を考慮した低温可変マイクロキャビティ
A Low-Temperature Tunable Microcavity featuring High Passive Stability and Microwave Integration ( http://arxiv.org/abs/2409.01857v1 ) ライセンス: Link先を確認 | Yanik Herrmann, Julius Fischer, Stijn Scheijen, Cornelis F. J. Wolfs, Julia M. Brevoord, Colin Sauerzapf, Leonardo G. C. Wienhoven, Laurens J. Feije, Martin Eschen, Maximilian Ruf, Matthew J. Weaver, Ronald Hanson, | (参考訳) オープンマイクロキャビティは、大きなスペクトルと空間的なチューニング性とサンプル統合の汎用性により、パーセルの量子エミッタを用いた効率的なスピン光子界面の探索と利用に大きな可能性をもたらす。
しかし、このプラットフォームにとって大きな課題は、低温環境における空洞長変動に対する感受性であり、空洞共振周波数のばらつきを招き、平均パーセルの増大を低下させる。
この研究は、特に低受動的振動レベルのために設計された閉サイクル極低温ファイバベースのマイクロキャビティ構成を提示すると共に、ファイバとサンプルの統合において大きなチューニング性と柔軟性を提供し、キャビティモードからの高光子収集効率を提供する。
10ケルビン以下の温度では、共振器結合型量子エミッタのスピンを操作するマイクロ波制御による拡張を含む、光学活性量子ビットによる明るいフォトニックインターフェースを含む、様々な設定構成で約25ピクタの安定性レベルが再現可能となる。
Open microcavities offer great potential for the exploration and utilization of efficient spin-photon interfaces with Purcell-enhanced quantum emitters thanks to their large spectral and spatial tunability combined with high versatility of sample integration. However, a major challenge for this platform is the sensitivity to cavity length fluctuations in the cryogenic environment, which leads to cavity resonance frequency variations and thereby a lowered averaged Purcell enhancement. This work presents a closed-cycle cryogenic fiber-based microcavity setup, which is in particular designed for a low passive vibration level, while still providing large tunability and flexibility in fiber and sample integration, and high photon collection efficiency from the cavity mode. At temperatures below 10 Kelvin, a stability level of around 25 picometer is reproducibly achieved in different setup configurations, including the extension with microwave control for manipulating the spin of cavity-coupled quantum emitters, enabling a bright photonic interface with optically active qubits. | 翻訳日:2024-09-06 01:36:22 公開日:2024-09-03 |
# On-Fly Ab Initio Hagedorn Wavepacket Dynamics: ジフルオロカルベンの単一ビブロニックレベル蛍光スペクトル
On-the-Fly Ab Initio Hagedorn Wavepacket Dynamics: Single Vibronic Level Fluorescence Spectra of Difluorocarbene ( http://arxiv.org/abs/2409.01862v1 ) ライセンス: Link先を確認 | Zhan Tong Zhang, Máté Visegrádi, Jiří J. L. Vaníček, | (参考訳) Hagedorn Wavepacketは、モデル電位の単一振動レベル(SVL)スペクトルに対するアンハーモニック効果を部分的に捉えるために、局所的調和近似を用いて使用されている。
Hagedornアプローチを現実的な非調和性多原子分子に実用的なものにするために、我々は局所調和型Hagedorn Wavepacketダイナミクスとオンザフライアブイニシアトダイナミクスを組み合わせる。
次に、非常に非調和なポテンシャルエネルギー表面を持つ小さなフロッピー分子であるジフルオロカルベンのSVL蛍光スペクトルを計算して、この方法をテストする。
我々の時間依存的アプローチは、個々の非調和振動波動関数に適合することなく、1つの非調和半古典波束軌道から全ての初期振動レベルの放射スペクトルを取得し、全ての振動遷移に対するフランク-コンドン因子を計算する。
グローバル・ハーモニック・モデルではCF$2$が不適切であるのに対し、オンザフライ・ローカル・ハーモニック・ハゲオルン・ウェーブパレット・ダイナミクスを用いて計算したスペクトルは実験データ、特に低初期励起によく一致することを示す。
Hagedorn wavepackets have been used with local harmonic approximation to partially capture the anharmonic effects on single vibronic level (SVL) spectra in model potentials. To make the Hagedorn approach practical for realistic anharmonic polyatomic molecules, here we combine local harmonic Hagedorn wavepacket dynamics with on-the-fly ab initio dynamics. We then test this method by computing the SVL fluorescence spectra of difluorocarbene, a small, floppy molecule with a very anharmonic potential energy surface. Our time-dependent approach obtains the emission spectra of all initial vibrational levels from a single anharmonic semiclassical wavepacket trajectory without the need to fit individual anharmonic vibrational wavefunctions and to calculate the Franck--Condon factors for all vibronic transitions. We show that, whereas global harmonic models are inadequate for CF$_2$, the spectra computed with the on-the-fly local harmonic Hagedorn wavepacket dynamics agree well with experimental data, especially for low initial excitations. | 翻訳日:2024-09-06 01:36:22 公開日:2024-09-03 |
# 音楽学における大規模言語モデルの役割 : マシンを信頼する準備はできているか?
The Role of Large Language Models in Musicology: Are We Ready to Trust the Machines? ( http://arxiv.org/abs/2409.01864v1 ) ライセンス: Link先を確認 | Pedro Ramoneda, Emilia Parada-Cabaleiro, Benno Weck, Xavier Serra, | (参考訳) 本研究では,音楽学におけるLarge Language Models(LLM)の使用と信頼性について検討する。
専門家や学生との議論から、現在ユビキタスな技術に対する現在の受容と懸念を評価する。
我々はさらに一歩進めて、人間専門家が検証した検索強化世代モデルと複数選択質問生成を用いた初期ベンチマークを作成するための半自動手法を提案する。
400人の有能な質問に対する評価は、現在のバニラLLMは、音楽辞書からの強化生成を検索するよりも信頼性が低いことを示している。
本稿では,音楽学におけるLLMの可能性について,正確で信頼性の高いドメイン知識を含めることで,LLMを専門化できる音楽学による研究が必要であることを示唆する。
In this work, we explore the use and reliability of Large Language Models (LLMs) in musicology. From a discussion with experts and students, we assess the current acceptance and concerns regarding this, nowadays ubiquitous, technology. We aim to go one step further, proposing a semi-automatic method to create an initial benchmark using retrieval-augmented generation models and multiple-choice question generation, validated by human experts. Our evaluation on 400 human-validated questions shows that current vanilla LLMs are less reliable than retrieval augmented generation from music dictionaries. This paper suggests that the potential of LLMs in musicology requires musicology driven research that can specialized LLMs by including accurate and reliable domain knowledge. | 翻訳日:2024-09-06 01:36:22 公開日:2024-09-03 |
# 特徴に基づく解釈可能な最適化
Feature-Based Interpretable Optimization ( http://arxiv.org/abs/2409.01869v1 ) ライセンス: Link先を確認 | Marc Goerigk, Michael Hartisch, Sebastian Merten, Kartikey Sharma, | (参考訳) 最適化モデルが実際に使われるためには、ユーザが結果を信頼することが重要です。
この側面における重要な要素は、ソリューションプロセスの解釈可能性である。
本質的に解釈可能な最適化モデルのための以前のフレームワークでは、決定木を使用して、下層の最適化モデルのソリューションにインスタンスをマッピングしていた。
この研究に基づき、より一般的な最適化ルールを用いて、解釈可能性をさらに高め、同時に意思決定者により多くの自由を与える方法について検討する。
提案したルールは、具体的な解ではなく、共通の特徴を特徴とする解の集合にマップされる。
このような最適化ルールを見つけるために、混合整数プログラミングの定式化とヒューリスティックスを用いた正確な方法論を提案する。
また、これらの手法がもたらす課題と機会についても概説する。
特に,解釈可能な最適化のための既存のフレームワークと比較して,提案手法が提供するソリューションの品質向上を実証し,解釈可能性と性能の関係について考察する。
これらの知見は、合成データと実世界のデータの両方を用いた実験によって裏付けられる。
For optimization models to be used in practice, it is crucial that users trust the results. A key factor in this aspect is the interpretability of the solution process. A previous framework for inherently interpretable optimization models used decision trees to map instances to solutions of the underlying optimization model. Based on this work, we investigate how we can use more general optimization rules to further increase interpretability and at the same time give more freedom to the decision maker. The proposed rules do not map to a concrete solution but to a set of solutions characterized by common features. To find such optimization rules, we present an exact methodology using mixed-integer programming formulations as well as heuristics. We also outline the challenges and opportunities that these methods present. In particular, we demonstrate the improvement in solution quality that our approach offers compared to existing frameworks for interpretable optimization and we discuss the relationship between interpretability and performance. These findings are supported by experiments using both synthetic and real-world data. | 翻訳日:2024-09-06 01:36:22 公開日:2024-09-03 |
# ハイブリッドCNN変換器を用いた実時間室内物体検出
Real-Time Indoor Object Detection based on hybrid CNN-Transformer Approach ( http://arxiv.org/abs/2409.01871v1 ) ライセンス: Link先を確認 | Salah Eddine Laidoudi, Madjid Maidi, Samir Otmane, | (参考訳) 屋内環境でのリアルタイム物体検出はコンピュータビジョンの困難な領域であり、可変照明や複雑な背景といった独特な障害に直面している。
この分野は、デジタルコンテンツと物理世界のよりシームレスな相互作用を可能にすることで、拡張現実や混合現実のようなアプリケーションに革命をもたらす大きな可能性を秘めている。
しかし、室内環境の複雑化に特化された研究の欠如は、文献の明確なギャップを浮き彫りにした。
これを解決するため,既存のデータセットと計算モデルの評価を精査し,洗練されたデータセットを作成する。
この新しいデータセットはOpenImages v7から派生したもので、実際のアプリケーションに関連するものとして選択された32の屋内カテゴリにのみ焦点が当てられている。
そこで本研究では,CNN検出モデルを適応させ,室内の散らばったシーンにおいて重要な特徴を識別・優先順位付けするためのアテンション機構を組み込んだ。
提案手法は,既存の最先端モデルと精度と速度で競合するだけでなく,リアルタイム屋内物体検出の分野での新たな研究・応用の道を開いた。
Real-time object detection in indoor settings is a challenging area of computer vision, faced with unique obstacles such as variable lighting and complex backgrounds. This field holds significant potential to revolutionize applications like augmented and mixed realities by enabling more seamless interactions between digital content and the physical world. However, the scarcity of research specifically fitted to the intricacies of indoor environments has highlighted a clear gap in the literature. To address this, our study delves into the evaluation of existing datasets and computational models, leading to the creation of a refined dataset. This new dataset is derived from OpenImages v7, focusing exclusively on 32 indoor categories selected for their relevance to real-world applications. Alongside this, we present an adaptation of a CNN detection model, incorporating an attention mechanism to enhance the model's ability to discern and prioritize critical features within cluttered indoor scenes. Our findings demonstrate that this approach is not just competitive with existing state-of-the-art models in accuracy and speed but also opens new avenues for research and application in the field of real-time indoor object detection. | 翻訳日:2024-09-06 01:36:22 公開日:2024-09-03 |
# エッジにおける連続物体検出のための潜水蒸留
Latent Distillation for Continual Object Detection at the Edge ( http://arxiv.org/abs/2409.01872v1 ) ライセンス: Link先を確認 | Francesco Pasti, Marina Ceccon, Davide Dalle Pezze, Francesco Paissan, Elisabetta Farella, Gian Antonio Susto, Nicola Bellotto, | (参考訳) Object Detectionの文献には優れたパフォーマンスを達成する多くの方法が存在するが、データ分散のシフトに対処することは依然として困難である。
継続学習(CL)はこの問題に対する解決策を提供し、モデルが以前のデータのパフォーマンスを維持しながら新しいデータに適応できるようにする。
これは特に、自動車やロボット工学のような動的環境に共通するエッジデバイスに関係している。
本研究では,オブジェクト検出のための連続学習(CLOD)シナリオにおいて,エッジデバイスのメモリと計算の制約に対処する。
具体的には
i) エッジデバイス上でのCLODのためのオープンソース,軽量,高速な検出器であるNanoDetの適合性を検討した。
さらに
(II) 検出性能を著しく損なうことなく, 最先端のCLアプローチで要求される操作数とメモリ量を削減できる新しいCL法, Latent Distillation~(LD)を提案する。
提案手法はよく知られたVOCおよびCOCOベンチマークを用いて検証し, 他の蒸留法と比較して, 蒸留パラメータのオーバーヘッドを74 %, 浮動小数点演算(FLOPs)を56 %削減する。
While numerous methods achieving remarkable performance exist in the Object Detection literature, addressing data distribution shifts remains challenging. Continual Learning (CL) offers solutions to this issue, enabling models to adapt to new data while maintaining performance on previous data. This is particularly pertinent for edge devices, common in dynamic environments like automotive and robotics. In this work, we address the memory and computation constraints of edge devices in the Continual Learning for Object Detection (CLOD) scenario. Specifically, (i) we investigate the suitability of an open-source, lightweight, and fast detector, namely NanoDet, for CLOD on edge devices, improving upon larger architectures used in the literature. Moreover, (ii) we propose a novel CL method, called Latent Distillation~(LD), that reduces the number of operations and the memory required by state-of-the-art CL approaches without significantly compromising detection performance. Our approach is validated using the well-known VOC and COCO benchmarks, reducing the distillation parameter overhead by 74\% and the Floating Points Operations~(FLOPs) by 56\% per model update compared to other distillation methods. | 翻訳日:2024-09-06 01:36:22 公開日:2024-09-03 |
# 非エルミート光源とドレインを持つBethe格子上の量子輸送
Quantum transport on Bethe lattices with non-Hermitian sources and a drain ( http://arxiv.org/abs/2409.01873v1 ) ライセンス: Link先を確認 | Naomichi Hatano, Hosho Katsura, Kohei Kawabata, | (参考訳) 有限世代のベーテ格子上の強結合モデル上の量子輸送や、光ハーヴェスティング分子のエネルギー輸送をモデル化するケイリー木を考える。
量子輸送を解析するための新しい特徴として、周辺部位のソースと中心部位のドレインに複雑なポテンシャルを加える。
周辺地から中心地へ侵入できる固有状態は,世代数に限られていることが判明した。
他のすべての固有状態は周辺部位の周囲に局在しており、中心地点には到達できない。
元の固有状態は電流を運ぶことができ、これはパリティ時間(PT$)対称の強結合鎖上の量子輸送に問題を還元する。
リンクの数が全世代に共通であるとき、電流はゼロエネルギー状態の例外点において最大値を取る。
木の各世代におけるリンク数にランダム性を導入すると、結果として生じる線形鎖はランダムホッピングタイトバインディングモデルとなる。
電流が最大値に達するのは、ゼロエネルギー状態の場合ではなく、概してゼロエネルギー状態の場合である。
We consider quantum transport on a tight-binding model on the Bethe lattice of a finite generation, or the Cayley tree, which may model the energy transport in a light-harvesting molecule. As a new feature to analyze the quantum transport, we add complex potentials for sources on the peripheral sites and for a drain on the central site. We find that the eigenstates that can penetrate from the peripheral sites to the central site are quite limited to the number of generation. All the other eigenstates are localized around the peripheral sites and cannot reach the central site. The former eigenstates can carry the current, which reduces the problem to the quantum transport on a parity-time ($PT$)-symmetric tight-binding chain. When the number of links is common to all generations, the current takes the maximum value at the exceptional point for the zero-energy states, which emerges because of the non-Hermiticity due to the $PT$-symmetric complex potentials. As we introduce randomness in the number of links in each generation of the tree, the resulting linear chain is a random-hopping tight-binding model. We find that the current reaches its maximum not exactly but approximately for a zero-energy state, although it is no longer located at an exceptional point in general. | 翻訳日:2024-09-06 01:36:22 公開日:2024-09-03 |
# CyberHost: リージョンコードブックを意識したオーディオ駆動型アバター拡散モデル
CyberHost: Taming Audio-driven Avatar Diffusion Model with Region Codebook Attention ( http://arxiv.org/abs/2409.01876v1 ) ライセンス: Link先を確認 | Gaojie Lin, Jianwen Jiang, Chao Liang, Tianyun Zhong, Jiaqi Yang, Yanbo Zheng, | (参考訳) 拡散に基づくビデオ生成技術は、人間のアニメーションにおける研究の急増を触媒し、飛躍的に進歩した。
しかし、これらの研究の大部分は同じモダリティの運転設定に限られており、クロスモダリティの人体アニメーションは比較的過小評価されている。
本稿では、手作業の整合性、アイデンティティの整合性、自然な動きを保証する、エンドツーエンドのオーディオ駆動型ヒューマンアニメーションフレームワークについて紹介する。
CyberHostの鍵となる設計はRerea Codebook Attentionメカニズムである。これは、学習された動きパターンの先行ときめ細かい局所的特徴を統合することで、顔と手のアニメーションの生成品質を改善する。
さらに,身体動作マップ,手指明度スコア,ポーズアライン参照特徴,局所的な強化指導など,人手優先のトレーニング戦略のスイートを開発し,合成結果を改善した。
私たちの知る限り、CyberHostは人体の範囲内でゼロショットビデオ生成を容易にする、エンドツーエンドの人間の拡散モデルとしては初めてのものです。
大規模な実験は、CyberHostが量的および定性的両方の面で、以前の研究を上回っていることを示している。
Diffusion-based video generation technology has advanced significantly, catalyzing a proliferation of research in human animation. However, the majority of these studies are confined to same-modality driving settings, with cross-modality human body animation remaining relatively underexplored. In this paper, we introduce, an end-to-end audio-driven human animation framework that ensures hand integrity, identity consistency, and natural motion. The key design of CyberHost is the Region Codebook Attention mechanism, which improves the generation quality of facial and hand animations by integrating fine-grained local features with learned motion pattern priors. Furthermore, we have developed a suite of human-prior-guided training strategies, including body movement map, hand clarity score, pose-aligned reference feature, and local enhancement supervision, to improve synthesis results. To our knowledge, CyberHost is the first end-to-end audio-driven human diffusion model capable of facilitating zero-shot video generation within the scope of human body. Extensive experiments demonstrate that CyberHost surpasses previous works in both quantitative and qualitative aspects. | 翻訳日:2024-09-06 01:36:22 公開日:2024-09-03 |
# SPiKE:ポイントクラウドシーケンスからの3Dヒューマンメッセージ
SPiKE: 3D Human Pose from Point Cloud Sequences ( http://arxiv.org/abs/2409.01879v1 ) ライセンス: Link先を確認 | Irene Ballester, Ondřej Peterka, Martin Kampel, | (参考訳) 3D Human Pose Estimation (HPE) は、RGB画像や深度マップ、点雲などの2次元または3次元表現から、人間の身体のキーポイントを3次元空間内に配置するタスクである。
深度と点雲からの現在のHPE法は、主に単一フレームの推定に依存し、シーケンスからの時間情報を利用しない。
本稿では,点雲列を用いた3次元HPEの新しい手法であるSPiKEを提案する。
シーケンスのフレームを独立に処理する既存の方法とは異なり、SPiKEは、シーケンス全体のポイント間の時空間関係をエンコードするためにTransformerアーキテクチャを採用することで、時間コンテキストを活用する。
点雲を局所ボリュームに分割し、点空間畳み込みによる空間特徴抽出により、SPiKEは、タイムスタンプ当たりの空間整合性を維持しながらトランスフォーマーによる効率的な処理を保証する。
3D HPEのITOPベンチマークの実験では、SPiKEは89.19%のmAPに達し、推論時間を大幅に短縮して最先端のパフォーマンスを達成した。
大規模な改善により、シーケンスの活用の有効性とアルゴリズムの選択がさらに検証される。
コードとモデルは、https://github.com/iballester/SPiKEで入手できる。
3D Human Pose Estimation (HPE) is the task of locating keypoints of the human body in 3D space from 2D or 3D representations such as RGB images, depth maps or point clouds. Current HPE methods from depth and point clouds predominantly rely on single-frame estimation and do not exploit temporal information from sequences. This paper presents SPiKE, a novel approach to 3D HPE using point cloud sequences. Unlike existing methods that process frames of a sequence independently, SPiKE leverages temporal context by adopting a Transformer architecture to encode spatio-temporal relationships between points across the sequence. By partitioning the point cloud into local volumes and using spatial feature extraction via point spatial convolution, SPiKE ensures efficient processing by the Transformer while preserving spatial integrity per timestamp. Experiments on the ITOP benchmark for 3D HPE show that SPiKE reaches 89.19% mAP, achieving state-of-the-art performance with significantly lower inference times. Extensive ablations further validate the effectiveness of sequence exploitation and our algorithmic choices. Code and models are available at: https://github.com/iballester/SPiKE | 翻訳日:2024-09-06 01:36:22 公開日:2024-09-03 |
# FPGAをターゲットとしたサイドチャネル攻撃に対する実行時変動の影響
The Impact of Run-Time Variability on Side-Channel Attacks Targeting FPGAs ( http://arxiv.org/abs/2409.01881v1 ) ライセンス: Link先を確認 | Davide Galli, Adriano Guarisco, William Fornaciari, Matteo Matteucci, Davide Zoni, | (参考訳) サイドチャネル攻撃を打倒するために、近年の多くの対策は、クロックジッタ、周波数および電圧スケーリング、位相シフトの観点から、ターゲットのサイドチャネル抵抗を最大化するために異なるアクチュエータからのコントリビューションを組み合わせることで、ターゲットのコンピューティングプラットフォームにランダムな実行時変動を強制することである。
しかし、そのような解のロバスト性は、深度解析がまだ欠落しているいくつかのハイパーパラメータの影響を強く受けているように思われる。
本研究は,FPGAをターゲットとした暗号実装のサイドチャネル攻撃に対する実行時変動性と脆弱性との関係を明らかにすることを目的として,近年の非同期化対策の有効性を検討するために,微細な動的電圧と周波数スケーリングアクチュエータを提案する。
実ハードウェアから収集した結果の分析により、サイドチャネル攻撃に対する実行時変動対策によって提供される保護の包括的理解が可能となった。
To defeat side-channel attacks, many recent countermeasures work by enforcing random run-time variability to the target computing platform in terms of clock jitters, frequency and voltage scaling, and phase shift, also combining the contributions from different actuators to maximize the side-channel resistance of the target. However, the robustness of such solutions seems strongly influenced by several hyper-parameters for which an in-depth analysis is still missing. This work proposes a fine-grained dynamic voltage and frequency scaling actuator to investigate the effectiveness of recent desynchronization countermeasures with the goal of highlighting the link between the enforced run-time variability and the vulnerability to side-channel attacks of cryptographic implementations targeting FPGAs. The analysis of the results collected from real hardware allowed for a comprehensive understanding of the protection offered by run-time variability countermeasures against side-channel attacks. | 翻訳日:2024-09-06 01:23:22 公開日:2024-09-03 |
# 古文書間分析のためのLLM談話パターンの検討
Investigating Expert-in-the-Loop LLM Discourse Patterns for Ancient Intertextual Analysis ( http://arxiv.org/abs/2409.01882v1 ) ライセンス: Link先を確認 | Ray Umphrey, Jesse Roberts, Lindsey Roberts, | (参考訳) 本研究では,大言語モデル (LLMs) の聖書, コイナ語, ギリシア語文における文間関係の同定と検討の可能性について検討する。
LLMの性能を様々なテクスト間シナリオで評価することにより、これらのモデルがテキスト間の直接的引用、暗示、エコーを検出することができることを示した。
LLMが新たなテクスト間観測と接続を生成する能力は、新たな洞察を明らかにする可能性を浮き彫りにしている。
しかし、このモデルは、長いクエリパスと偽のテキスト間依存を含まないことにも苦慮し、専門家の評価の重要性を強調している。
論文のエキスパート・イン・ザ・ループの方法論は、聖書のコーパス内外における複雑なテクスチュアリティのウェブについて、インターテクスチュアな研究を行うためのスケーラブルなアプローチを提供する。
This study explores the potential of large language models (LLMs) for identifying and examining intertextual relationships within biblical, Koine Greek texts. By evaluating the performance of LLMs on various intertextuality scenarios the study demonstrates that these models can detect direct quotations, allusions, and echoes between texts. The LLM's ability to generate novel intertextual observations and connections highlights its potential to uncover new insights. However, the model also struggles with long query passages and the inclusion of false intertextual dependences, emphasizing the importance of expert evaluation. The expert-in-the-loop methodology presented offers a scalable approach for intertextual research into the complex web of intertextuality within and beyond the biblical corpus. | 翻訳日:2024-09-06 01:23:22 公開日:2024-09-03 |
# 病理組織分類のための視覚・言語モデルの構築:全てを同時に予測する
Boosting Vision-Language Models for Histopathology Classification: Predict all at once ( http://arxiv.org/abs/2409.01883v1 ) ライセンス: Link先を確認 | Maxime Zanella, Fereshteh Shakeri, Yunshi Huang, Houda Bahig, Ismail Ben Ayed, | (参考訳) 病理組織学のための視覚言語モデル(VLM)の開発は、将来有望な新しい使用法とゼロショット性能を示している。
しかし、現在のアプローチでは、大きなスライドを小さなパッチに分解し、帰納的分類のみに焦点を当てている。
トランスダクティブアプローチを導入することで、これらの大きなモデルの能力を拡張します。
パッチ間のテキストベースの予測と親和性関係を用いることで,新たなVLMのゼロショット能力を付加ラベルなしで活用する。
われわれは4つの病理組織学的データセットと5つの異なるVLMについて検討した。
埋め込み空間でのみ動作する(ブラックボックスの設定)ため、我々のアプローチは非常に効率的で、わずか数秒で10^5$のパッチを処理し、帰納的ゼロショット分類よりも大幅に精度が向上した。
コードはhttps://github.com/FereshteShakeri/Histo-TransCLIPで公開されている。
The development of vision-language models (VLMs) for histo-pathology has shown promising new usages and zero-shot performances. However, current approaches, which decompose large slides into smaller patches, focus solely on inductive classification, i.e., prediction for each patch is made independently of the other patches in the target test data. We extend the capability of these large models by introducing a transductive approach. By using text-based predictions and affinity relationships among patches, our approach leverages the strong zero-shot capabilities of these new VLMs without any additional labels. Our experiments cover four histopathology datasets and five different VLMs. Operating solely in the embedding space (i.e., in a black-box setting), our approach is highly efficient, processing $10^5$ patches in just a few seconds, and shows significant accuracy improvements over inductive zero-shot classification. Code available at https://github.com/FereshteShakeri/Histo-TransCLIP. | 翻訳日:2024-09-06 01:23:22 公開日:2024-09-03 |
# 活動誘導型産業用異常音の干渉検出
Activity-Guided Industrial Anomalous Sound Detection against Interferences ( http://arxiv.org/abs/2409.01885v1 ) ライセンス: Link先を確認 | Yunjoo Lee, Jaechang Kim, Jungseul Ok, | (参考訳) 本稿では,産業用音響データの異常検出の現実的シナリオについて述べる。
この課題の克服は、しばしば干渉は追加情報なしでターゲットマシンと事実上区別できないため困難である。
この問題に対処するため,SSADを提案する。SSADはソース分離(SS)のフレームワークで,異常検出(AD)に続き,マシンのアクティビティ情報を活用する。
SSADは2つのコンポーネントから構成される。
(i)活動インフォームドSS(活動インフォームドSS)により、類似の音色に干渉しても効果的なソース分離が可能となり、
(II)2段階マスキング,機械活動に整合した異常を強調することにより異常検出の堅牢化を図る。
実験により,SSADはクリーン信号に完全アクセス可能なベースラインに匹敵する精度を達成し,SSADは劣化信号と活動情報のみを提供することを示した。
さらに,2段階マスキングによる活動インフォームドSSとADにより,SSADは標準的なアプローチ,特に干渉の場合に優れる。
産業音データにおける異常検出の複雑さに対処するためのSSADの実用的有効性を強調した。
We address a practical scenario of anomaly detection for industrial sound data, where the sound of a target machine is corrupted by background noise and interference from neighboring machines. Overcoming this challenge is difficult since the interference is often virtually indistinguishable from the target machine without additional information. To address the issue, we propose SSAD, a framework of source separation (SS) followed by anomaly detection (AD), which leverages machine activity information, often readily available in practical settings. SSAD consists of two components: (i) activity-informed SS, enabling effective source separation even given interference with similar timbre, and (ii) two-step masking, robustifying anomaly detection by emphasizing anomalies aligned with the machine activity. Our experiments demonstrate that SSAD achieves comparable accuracy to a baseline with full access to clean signals, while SSAD is provided only a corrupted signal and activity information. In addition, thanks to the activity-informed SS and AD with the two-step masking, SSAD outperforms standard approaches, particularly in cases with interference. It highlights the practical efficacy of SSAD in addressing the complexities of anomaly detection in industrial sound data. | 翻訳日:2024-09-06 01:23:22 公開日:2024-09-03 |
# CDNにおける絡み合ったドメイン検証のセキュリティへの影響の検出と測定
Detecting and Measuring Security Implications of Entangled Domain Verification in CDN ( http://arxiv.org/abs/2409.01887v1 ) ライセンス: Link先を確認 | Ziyu Lin, Zhiwei Lin, Run Guo, Jianjun Chen, Mingming Zhang, Ximeng Liu, Tianhao Yang, Zhuoran Cao, Robert H. Deng, | (参考訳) コンテンツ配信ネットワーク(CDN)は、ウェブサイトのセキュリティを強化するための保護層を提供する。
しかし、Absence of Domain Verification (DVA)と呼ばれる重大なセキュリティ欠陥が最近出現している。
この脅威は認識されているが、CDNにおけるドメイン検証戦略の現在の実践とセキュリティ上の欠陥は、十分に調査されていない。
本稿では,CDNのドメイン悪用につながる可能性のあるDVA脆弱性を検出する自動システムであるDVAHunterを提案する。
ほとんどの(39/45)プロバイダは、いかなる検証も行わず、また、まだ利用可能なものでさえも、DVAが普及していることが、主要なCDNプロバイダ45社の評価から明らかになっている。
さらに、DVAHunterを用いて、45CDNでホストされているTrancoのTop 100Mサイトから89Mのサブドメインを大規模に測定した。
当社では,2つの主要なDVA活用シナリオ – 隠蔽通信とドメインハイジャック – に注目しています。
ドメイン悪用に弱い332Kサブドメインを同定した。
本ツールは,CDNプロバイダに対して,DVAの活用に関する深い知見を提供し,実行可能な緩和プラクティスを提案する。
現在、12のプロバイダから脆弱性の確認を受けています。6(例:Edgio、Kuocai)が修正を実装しており、1( ChinaNetCenter)が当社の推奨に基づいて積極的にソリューションに取り組んでいます。
Content Delivery Networks (CDNs) offer a protection layer for enhancing the security of websites. However, a significant security flaw named Absence of Domain Verification (DVA) has become emerging recently. Although this threat is recognized, the current practices and security flaws of domain verification strategies in CDNs have not been thoroughly investigated. In this paper, we present DVAHunter, an automated system for detecting DVA vulnerabilities that can lead to domain abuse in CDNs. Our evaluation of 45 major CDN providers reveals the prevalence of DVA: most (39/45) providers do not perform any verification, and even those that do remain exploitable. Additionally, we used DVAHunter to conduct a large-scale measurement of 89M subdomains from Tranco's Top 1M sites hosted on the 45 CDNs under evaluation. Our focus was on two primary DVA exploitation scenarios: covert communication and domain hijacking. We identified over 332K subdomains vulnerable to domain abuse. This tool provides deeper insights into DVA exploitation and allows us to propose viable mitigation practices for CDN providers. To date, we have received vulnerability confirmations from 12 providers; 6 (e.g., Edgio, Kuocai) have implemented fixes, and 1 (ChinaNetCenter) are actively working on solutions based on our recommendations. | 翻訳日:2024-09-06 01:23:22 公開日:2024-09-03 |
# ステア・エンベディングの新展開:コレクター・ネットワークによるディエンス・リトリバー・トレーニングの改善
A Fresh Take on Stale Embeddings: Improving Dense Retriever Training with Corrector Networks ( http://arxiv.org/abs/2409.01890v1 ) ライセンス: Link先を確認 | Nicholas Monath, Will Grathwohl, Michael Boratko, Rob Fergus, Andrew McCallum, Manzil Zaheer, | (参考訳) 密集検索では、ディープエンコーダは入力とターゲットの両方に埋め込みを提供し、ソフトマックス関数は、多数の候補対象(例えば、情報検索のためのテキストパス)上の分布をパラメータ化するために使用される。
このようなエンコーダのトレーニングにおいて,(1)多数のターゲット,(2)計算コストのかかるターゲットエンコーダモデル,(3)ターゲットエンコーダパラメータのトレーニングが進行中であるために,時代遅れであるキャッシュされたターゲットエンコーダの埋め込みなど,重要な課題が生じる。
そこで本論文では,従来のキャッシュ型ターゲット埋め込みを調整し,高精度なソフトマックス近似を実現し,最新のハイスコアの「ハードネガティブ」をサンプリングする,小さなパラメトリック補正ネットワークをトレーニングすることで,これらの課題に対するシンプルでスケーラブルな応答を提示する。
提案するターゲット修正器の一般化特性について理論的に検討し,ネットワークの複雑さ,キャッシュ表現の安定性,トレーニングデータの量について検討する。
本稿では,大規模ベンチマークによる高密度検索データセットと,検索言語モデルを用いたQAに関する実験結果について述べる。
本手法は,教師なし事前学習モデルからの初期キャッシュ以外の目標埋め込み更新が行われなくても,現状と一致し,計算コストを4~80倍削減する。
In dense retrieval, deep encoders provide embeddings for both inputs and targets, and the softmax function is used to parameterize a distribution over a large number of candidate targets (e.g., textual passages for information retrieval). Significant challenges arise in training such encoders in the increasingly prevalent scenario of (1) a large number of targets, (2) a computationally expensive target encoder model, (3) cached target embeddings that are out-of-date due to ongoing training of target encoder parameters. This paper presents a simple and highly scalable response to these challenges by training a small parametric corrector network that adjusts stale cached target embeddings, enabling an accurate softmax approximation and thereby sampling of up-to-date high scoring "hard negatives." We theoretically investigate the generalization properties of our proposed target corrector, relating the complexity of the network, staleness of cached representations, and the amount of training data. We present experimental results on large benchmark dense retrieval datasets as well as on QA with retrieval augmented language models. Our approach matches state-of-the-art results even when no target embedding updates are made during training beyond an initial cache from the unsupervised pre-trained model, providing a 4-80x reduction in re-embedding computational cost. | 翻訳日:2024-09-06 01:23:22 公開日:2024-09-03 |
# 効果的なロングコンテキストマルチホップインストラクションデータセット作成に必須の要素は何か? 洞察とベストプラクティス
What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices ( http://arxiv.org/abs/2409.01893v1 ) ライセンス: Link先を確認 | Zhi Chen, Qiguang Chen, Libo Qin, Qipeng Guo, Haijun Lv, Yicheng Zou, Wanxiang Che, Hang Yan, Kai Chen, Dahua Lin, | (参考訳) 拡張コンテキストウィンドウを持つ大規模言語モデル(LLM)の最近の進歩は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。
長期的コンテキストタスクの成功を達成するために、合成データを通じてモデルの長期的コンテキスト能力を高めるために、大量の作業が行われた。
既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。
しかし, 予備実験の結果, 生成サンプルの35%未満はマルチホップであり, 40%以上は品質が悪く, 包括的理解やさらなる研究が制限されていることがわかった。
合成データの質を向上させるために, 品質検証エージェント, シングルホップ質問生成エージェント, 複数質問サンプリング戦略, マルチホップ質問マーガーエージェントを組み込んだMIMG(Multi-agent Interactive Multi-hop Generation)フレームワークを提案する。
このフレームワークは、高品質、マルチホップ、多彩なデータの比率が85%を超え、データ品質を改善する。
さらに,様々なモデルを対象とした広範囲な実験を通じて,文書選択,質問マージ,検証手法の戦略を体系的に検討する。
以上の結果から,我々の合成した高品質な長文命令データにより,大量の人注データに基づいて訓練されたモデルよりも,モデル性能が著しく向上することが示唆された。
私たちのコードは、https://github.com/WowCZ/LongMIT.comで利用可能です。
Recent advancements in large language models (LLMs) with extended context windows have significantly improved tasks such as information extraction, question answering, and complex planning scenarios. In order to achieve success in long context tasks, a large amount of work has been done to enhance the long context capabilities of the model through synthetic data. Existing methods typically utilize the Self-Instruct framework to generate instruction tuning data for better long context capability improvement. However, our preliminary experiments indicate that less than 35% of generated samples are multi-hop, and more than 40% exhibit poor quality, limiting comprehensive understanding and further research. To improve the quality of synthetic data, we propose the Multi-agent Interactive Multi-hop Generation (MIMG) framework, incorporating a Quality Verification Agent, a Single-hop Question Generation Agent, a Multiple Question Sampling Strategy, and a Multi-hop Question Merger Agent. This framework improves the data quality, with the proportion of high-quality, multi-hop, and diverse data exceeding 85%. Furthermore, we systematically investigate strategies for document selection, question merging, and validation techniques through extensive experiments across various models. Our findings show that our synthetic high-quality long-context instruction data significantly enhances model performance, even surpassing models trained on larger amounts of human-annotated data. Our code is available at: https://github.com/WowCZ/LongMIT. | 翻訳日:2024-09-06 01:23:22 公開日:2024-09-03 |
# PINNIES: 効率的な物理インフォームドニューラルネットワークフレームワークによる演算子問題の統合
PINNIES: An Efficient Physics-Informed Neural Network Framework to Integral Operator Problems ( http://arxiv.org/abs/2409.01899v1 ) ライセンス: Link先を確認 | Alireza Afzal Aghaei, Mahdi Movahedian Moghaddam, Kourosh Parand, | (参考訳) 本稿では,物理インフォームド深層学習フレームワークにおける積分演算子の高速かつ高精度な近似のための効率的なテンソルベクトル積法を提案する。
提案手法は,無限領域や特異点の存在下でも,積分成分を近似するためにガウスの二次公式を用いて,特定の点における問題力学の評価にニューラルネットワークアーキテクチャを利用する。
我々は、この手法をフレドホルムとボルテラの積分作用素にも適用し、連続時間を含む最適制御問題にも適用可能であることを示した。
さらに, この手法を近似的な分数微分や積分に拡張する方法を概説し, 分数微分を効率的に計算するための高速行列ベクトル積アルゴリズムを提案する。
数値的な節では、前方および逆問題に関する総合的な実験を行う。
今後の課題として,多次元積分方程式,積分方程式系,部分的および分数的積分微分方程式,遅延,分数的,多次元,非線形構成における様々な最適制御問題など,50以上の多様な数学的問題に対して,本手法の性能を評価する。
逆問題に対しては、いくつかの積分方程式と分数積分微分問題にアプローチを試す。
最後に,提案手法の実装とユーザビリティを促進するため,Pinnies Pythonパッケージを紹介する。
This paper introduces an efficient tensor-vector product technique for the rapid and accurate approximation of integral operators within physics-informed deep learning frameworks. Our approach leverages neural network architectures to evaluate problem dynamics at specific points, while employing Gaussian quadrature formulas to approximate the integral components, even in the presence of infinite domains or singularities. We demonstrate the applicability of this method to both Fredholm and Volterra integral operators, as well as to optimal control problems involving continuous time. Additionally, we outline how this approach can be extended to approximate fractional derivatives and integrals and propose a fast matrix-vector product algorithm for efficiently computing the fractional Caputo derivative. In the numerical section, we conduct comprehensive experiments on forward and inverse problems. For forward problems, we evaluate the performance of our method on over 50 diverse mathematical problems, including multi-dimensional integral equations, systems of integral equations, partial and fractional integro-differential equations, and various optimal control problems in delay, fractional, multi-dimensional, and nonlinear configurations. For inverse problems, we test our approach on several integral equations and fractional integro-differential problems. Finally, we introduce the pinnies Python package to facilitate the implementation and usability of the proposed method. | 翻訳日:2024-09-06 01:23:22 公開日:2024-09-03 |
# 3D-LEX v1.0: 3D Lexicons for American Sign Language and Sign Language of the Netherlands
3D-LEX v1.0: 3D Lexicons for American Sign Language and Sign Language of the Netherlands ( http://arxiv.org/abs/2409.01901v1 ) ライセンス: Link先を確認 | Oline Ranum, Gomer Otterspeer, Jari I. Andersen, Robert G. Belleman, Floris Roelofsen, | (参考訳) 本研究では,手話を3Dで捉えるための効率的な手法を提案するとともに,3D-LEX v1.0データセットを導入し,音韻特性の半自動アノテーション法について詳述する。
提案手法は,高解像度3次元ポーズ,3次元ハンドパップ,深度認識顔貌を含む3つのモーションキャプチャ技術を統合し,平均サンプリングレートを10秒毎に達成する。
これには、サインの例を示し、サインを実行し、記録し、キャプチャをアーカイブする時間が含まれる。
3D-LEXデータセットには、American Sign Languageから1000のサインと、オランダのSign Languageから1000のサインが含まれている。
本稿では,3D-LEXから手形アノテーションを直接生成する簡単な方法を提案する。
我々は、アメリカンサイン言語から1000の記号に対して手形ラベルを作成し、そのラベルを手形認識タスクで評価する。
ラベルは手形アノテーションを使わずに光沢認識精度を5%、専門家アノテーションを1%向上させる。
我々のモーションキャプチャーデータは、手話の特徴の詳細な分析をサポートし、任意の視点から2次元投影を生成するのに役立つ。
3D-LEXコレクションは、3D対応手話処理の研究を支援するため、既存の手話ベンチマークや言語資源と整合している。
In this work, we present an efficient approach for capturing sign language in 3D, introduce the 3D-LEX v1.0 dataset, and detail a method for semi-automatic annotation of phonetic properties. Our procedure integrates three motion capture techniques encompassing high-resolution 3D poses, 3D handshapes, and depth-aware facial features, and attains an average sampling rate of one sign every 10 seconds. This includes the time for presenting a sign example, performing and recording the sign, and archiving the capture. The 3D-LEX dataset includes 1,000 signs from American Sign Language and an additional 1,000 signs from the Sign Language of the Netherlands. We showcase the dataset utility by presenting a simple method for generating handshape annotations directly from 3D-LEX. We produce handshape labels for 1,000 signs from American Sign Language and evaluate the labels in a sign recognition task. The labels enhance gloss recognition accuracy by 5% over using no handshape annotations, and by 1% over expert annotations. Our motion capture data supports in-depth analysis of sign features and facilitates the generation of 2D projections from any viewpoint. The 3D-LEX collection has been aligned with existing sign language benchmarks and linguistic resources, to support studies in 3D-aware sign language processing. | 翻訳日:2024-09-06 01:23:22 公開日:2024-09-03 |
# 浮き彫り加工による巨大南部・ゴールドストーンモード
Floquet-engineered Emergent Massive Nambu-Goldstone Modes ( http://arxiv.org/abs/2409.01902v1 ) ライセンス: Link先を確認 | Yang Hou, Zhanpeng Fu, Roderich Moessner, Marin Bukov, Hongzheng Zhao, | (参考訳) 本稿では,多体駆動システムにおいて,大質量なナムブ・ゴールドストーン準粒子を実装するための一般的な枠組みを提案する。
基礎となるメカニズムは、ゆっくりとした自由度のダイナミクスを支配できる有効ハミルトニアンにインプリントされた明示的なリー群構造を利用する。
我々は、ギャップ付きスピン波励起をサポートするハイゼンベルク型スピンモデルのような明示的で実験的に実装可能な実現について論じる。
本研究では, 特定の可観測物の力学から, 巨大なナムブ・ゴールドストーンモードの存在を証明し, 弱い明示対称性の破れの存在下での分散スペクトルとその寿命を解析するプロトコルを提案する。
We present a general framework to implement massive Nambu-Goldstone quasi-particles in driven many-body systems. The underlying mechanism leverages an explicit Lie group structure imprinted into an effective Hamiltonian that governs the dynamics of slow degrees of freedom; the resulting emergent continuous symmetry is weakly explicitly broken, giving rise to a massive Nambu-Goldstone mode, with a spectral mass gap scaling linearly with the drive period. We discuss explicit and experimentally implementable realizations, such as Heisenberg-like spin models that support gapped spin-wave excitations. We provide a protocol to certify the existence of the massive Nambu-Goldstone mode from the dynamics of specific observables, and analyse the dispersion spectrum and their lifetime in the presence of weak explicit symmetry breaking. | 翻訳日:2024-09-06 01:23:22 公開日:2024-09-03 |
# ABiMed(AbiMed, 臨床診断支援システム)を用いた医薬品レビューと多薬局管理のためのランダム化シミュレーションの試み
A randomized simulation trial evaluating ABiMed, a clinical decision support system for medication reviews and polypharmacy management ( http://arxiv.org/abs/2409.01903v1 ) ライセンス: Link先を確認 | Abdelmalek Mouazer, Sophie Dubois, Romain Léguillon, Nada Boudegzdame, Thibaud Levrard, Yoann Le Bars, Christian Simon, Brigitte Séroussi, Julien Grosjean, Romain Lelong, Catherine Letord, Stéfan Darmoni, Karima Sedki, Pierre Meneton, Rosy Tsopra, Hector Falcoff, Jean-Baptiste Lamy, | (参考訳) 背景: メディケイト・レビューは薬剤師が実施し, 薬物治療の最適化を目的とした患者の構造化されたインタビューである。
実際には、薬のレビューは、特定の知識を必要とする長く認知的に要求されるタスクである。
臨床実践ガイドラインが提案されているが、その適用は退屈である。
方法:STOPP/START v2ガイドラインの実装と,テーブル,グラフ,フラワーグリフを用いた総合的な薬物知識の視覚的提示に基づいて,医薬レビューのための臨床意思決定支援システムであるABiMedを設計した。
ABiMed と ABiMed の2例について, ランダム化シミュレーション試験において, ABiMed と 39 の地域薬剤師による ABiMed の評価を行った。
薬剤師が特定した問題点,提案した介入,応答時間,ユーザビリティ,コメントなどを記録した。
薬剤師の薬品レビューは専門家が設計した金の基準と比較された。
結果: ABiMedでは、薬剤師は薬物検査中に関連性のある薬物関連問題を1.6倍(p=1.1e-12)発見し、時間を要することなくより良い介入(p=9.8e-9)を提案した(p=0.56)。
システム・ユーザビリティ・スケールのスコアは82.7であり、「優秀」である。
彼らのコメントの中で、薬剤師はABiMedの視覚的側面と、現在の治療法と提案された治療法を比較できる能力を評価した。
多因子分析では, 薬剤師の年齢や性別によるABiMedの支持率に差は認められなかった。
結論: インテリジェントで視覚的な臨床診断支援システムを使用することで、薬剤レビューを行う際に薬剤師を助けることができる。
本研究の主目的は臨床におけるシステム検証である。
Background: Medication review is a structured interview of the patient, performed by the pharmacist and aimed at optimizing drug treatments. In practice, medication review is a long and cognitively-demanding task that requires specific knowledge. Clinical practice guidelines have been proposed, but their application is tedious. Methods: We designed ABiMed, a clinical decision support system for medication reviews, based on the implementation of the STOPP/START v2 guidelines and on the visual presentation of aggregated drug knowledge using tables, graphs and flower glyphs. We evaluated ABiMed with 39 community pharmacists during a randomized simulation trial, each pharmacist performing a medication review for two fictitious patients without ABiMed, and two others with ABiMed. We recorded the problems identified by the pharmacists, the interventions proposed, the response time, the perceived usability and the comments. Pharmacists' medication reviews were compared to an expert-designed gold standard. Results: With ABiMed, pharmacists found 1.6 times more relevant drug-related problems during the medication review (p=1.1e-12) and proposed better interventions (p=9.8e-9), without needing more time (p=0.56). The System Usability Scale score is 82.7, which is ranked "excellent". In their comments, pharmacists appreciated the visual aspect of ABiMed and its ability to compare the current treatment with the proposed one. A multifactor analysis showed no difference in the support offered by ABiMed according to the pharmacist's age or sex, in terms of percentage of problems identified or quality of the proposed interventions. Conclusions: The use of an intelligent and visual clinical decision support system can help pharmacists when they perform medication reviews. Our main perspective is the validation of the system in clinical conditions. | 翻訳日:2024-09-06 01:23:22 公開日:2024-09-03 |
# 集合クレームモデリングのためのベイズCARTモデル
Bayesian CART models for aggregate claim modeling ( http://arxiv.org/abs/2409.01908v1 ) ライセンス: Link先を確認 | Yaojun Zhang, Lanpeng Ji, Georgios Aivaliotis, Charles C. Taylor, | (参考訳) 本稿では,3種類のベイジアンCART(BCART)モデルを用いて,周波数重大度モデル,シーケンシャルモデル,ジョイントモデルを提案する。
本稿では,多変量対応データに適用可能なBCARTモデルの汎用フレームワークを提案する。
周波数重大性モデリングを容易にするために,種々の分布を用いて,右スクリューおよび重み付きクレーム重大性データに対するBCARTモデルについて検討する。
ワイブル分布がガンマ分布や対数正規分布よりも優れていることを発見した。
さらに, クレーム数と平均重大度間の依存性を組み込んだBCARTモデルと共同BCARTモデルは有用であり, 独立性を仮定したBCARTモデルに好適であることがわかった。
これらのモデルの性能は、慎重に設計されたシミュレーションと実際の保険データによって説明される。
This paper proposes three types of Bayesian CART (or BCART) models for aggregate claim amount, namely, frequency-severity models, sequential models and joint models. We propose a general framework for the BCART models applicable to data with multivariate responses, which is particularly useful for the joint BCART models with a bivariate response: the number of claims and aggregate claim amount. To facilitate frequency-severity modeling, we investigate BCART models for the right-skewed and heavy-tailed claim severity data by using various distributions. We discover that the Weibull distribution is superior to gamma and lognormal distributions, due to its ability to capture different tail characteristics in tree models. Additionally, we find that sequential BCART models and joint BCART models, which incorporate dependence between the number of claims and average severity, are beneficial and thus preferable to the frequency-severity BCART models in which independence is assumed. The effectiveness of these models' performance is illustrated by carefully designed simulations and real insurance data. | 翻訳日:2024-09-06 01:23:22 公開日:2024-09-03 |
# LUK: 大規模言語モデルからのエキスパート知識によるログ理解の強化
LUK: Empowering Log Understanding with Expert Knowledge from Large Language Models ( http://arxiv.org/abs/2409.01909v1 ) ライセンス: Link先を確認 | Lipeng Ma, Weidong Yang, Sihang Jiang, Ben Fei, Mingjie Zhou, Shuhao Li, Bo Xu, Yanghua Xiao, | (参考訳) ログはシステム監視とトラブルシューティングに不可欠な情報を提供する上で重要な役割を果たす。
近年、自然言語処理(NLP)における事前学習言語モデル(PLM)と大規模言語モデル(LLM)の成功により、より小さなPLM(BERTなど)やLSM(ChatGPTなど)がログ解析の主流となっている。
LLMには豊富な知識があるが、その高い計算コストと不安定な性能により、LSMはログを直接解析するには実用的ではない。
対照的に、より小さなPLMは限られた計算資源でも特定のタスクに対して微調整できるため、より実用的なものとなる。
しかし、これらの小さなPLMは、専門家の知識が限られているため、ログを包括的に理解する上で困難に直面している。
本稿では,LPMに埋め込まれた知識をログ理解に活用するために,LUKと呼ばれる新しい知識向上フレームワークを導入する。
具体的には、専門家の知識を得るために異なる役割からなるLLMをベースとしたマルチエキスパート協調フレームワークを設計する。
さらに,2つの新しい事前学習タスクを提案し,専門家の知識でログの事前学習を強化する。
LUKは、異なるログ分析タスクに関する最先端の結果を達成し、LLMからのエキスパート知識をより効果的に利用してログを理解するための広範な実験を行った。
Logs play a critical role in providing essential information for system monitoring and troubleshooting. Recently, with the success of pre-trained language models (PLMs) and large language models (LLMs) in natural language processing (NLP), smaller PLMs (such as BERT) and LLMs (like ChatGPT) have become the current mainstream approaches for log analysis. While LLMs possess rich knowledge, their high computational costs and unstable performance make LLMs impractical for analyzing logs directly. In contrast, smaller PLMs can be fine-tuned for specific tasks even with limited computational resources, making them more practical. However, these smaller PLMs face challenges in understanding logs comprehensively due to their limited expert knowledge. To better utilize the knowledge embedded within LLMs for log understanding, this paper introduces a novel knowledge enhancement framework, called LUK, which acquires expert knowledge from LLMs to empower log understanding on a smaller PLM. Specifically, we design a multi-expert collaboration framework based on LLMs consisting of different roles to acquire expert knowledge. In addition, we propose two novel pre-training tasks to enhance the log pre-training with expert knowledge. LUK achieves state-of-the-art results on different log analysis tasks and extensive experiments demonstrate expert knowledge from LLMs can be utilized more effectively to understand logs. | 翻訳日:2024-09-06 01:23:22 公開日:2024-09-03 |
# GradINN: 勾配インフォームニューラルネットワーク
GradINN: Gradient Informed Neural Network ( http://arxiv.org/abs/2409.01914v1 ) ライセンス: Link先を確認 | Filippo Aglietti, Francesco Della Santa, Andrea Piano, Virginia Aglietti, | (参考訳) 本研究では,物理情報ニューラルネットワーク(PINN)にインスパイアされた手法であるGradINN(Gradient Informed Neural Networks)を提案する。
GradINNは、システムの勾配に関する事前の信念を利用して、予測関数の勾配を全ての入力次元にわたって制限する。
これは2つのニューラルネットワークを用いて達成される。1つは対象関数をモデル化し、もう1つは事前の信念、例えば滑らかさを表現する補助ネットワークである。
カスタマイズされた損失関数により、補助ネットワークからの勾配制約を課しながら、第1のネットワークを訓練することができる。
非時間依存システム(フリーマン関数、ストークスフロー)と時間依存システム(バーガー方程式ロトカ・ボルテラ)にまたがる多様な問題に対して、GradINNの利点を示す。
実験結果は、標準的なニューラルネットワークや、すべてのテストシナリオにわたるPINNのようなアプローチと比較して、強いパフォーマンスを示している。
We propose Gradient Informed Neural Networks (GradINNs), a methodology inspired by Physics Informed Neural Networks (PINNs) that can be used to efficiently approximate a wide range of physical systems for which the underlying governing equations are completely unknown or cannot be defined, a condition that is often met in complex engineering problems. GradINNs leverage prior beliefs about a system's gradient to constrain the predicted function's gradient across all input dimensions. This is achieved using two neural networks: one modeling the target function and an auxiliary network expressing prior beliefs, e.g., smoothness. A customized loss function enables training the first network while enforcing gradient constraints derived from the auxiliary network. We demonstrate the advantages of GradINNs, particularly in low-data regimes, on diverse problems spanning non time-dependent systems (Friedman function, Stokes Flow) and time-dependent systems (Lotka-Volterra, Burger's equation). Experimental results showcase strong performance compared to standard neural networks and PINN-like approaches across all tested scenarios. | 翻訳日:2024-09-06 01:23:22 公開日:2024-09-03 |
# 無線ネットワーク用サービスフレームワークのプライバシ保護とポスト量子カウンタ拒否
Privacy-Preserving and Post-Quantum Counter Denial of Service Framework for Wireless Networks ( http://arxiv.org/abs/2409.01924v1 ) ライセンス: Link先を確認 | Saleh Darzi, Attila Altay Yavuz, | (参考訳) ネットワークサービスが進歩し、モバイルとIoT環境が拡大するにつれ、スペクトルアクセスシステムに対する多くのセキュリティ上の懸念が表面化している。
デニアル・オブ・サービス(DoS)攻撃とユーザーのプライバシー(例えば、位置情報のプライバシー、匿名性)に対する懸念の高まりは、このようなサイバー脅威の1つだ。
これらのセキュリティとプライバシのリスクは、従来の暗号システムを回避し、対策コストを増大させることで、長期的なセキュリティを損なう量子コンピュータの脅威によって増大する。
隔離された脅威に対する防衛機構はいくつか存在するが、特に量子後セキュリティ(PQ)を念頭に置いている場合、プライバシーと匿名性を備えたDoS攻撃に対する総合的な解決策には、最先端のギャップがある。
本稿では,新たなサイバーセキュリティフレームワークであるPACDoSQを提案する。
提案ソリューションでは,スペクトル管理システムの既存のアーキテクチャ的特徴を活かしたプライベート・スペクトル・バッション(データベース)の概念を導入し,それをマルチサーバのプライベート情報検索とPQ-Secure Torと相乗化することで,DoS対策のためのハッシュベースのクライアントサーバパズルとともに,帯域情報の位置情報と匿名取得を保証する。
我々は,PACDoSQがセキュリティ目標を達成することを証明し,総合的な性能評価を通じてその実現可能性を示す。
As network services progress and mobile and IoT environments expand, numerous security concerns have surfaced for spectrum access systems. The omnipresent risk of Denial-of-Service (DoS) attacks and raising concerns about user privacy (e.g., location privacy, anonymity) are among such cyber threats. These security and privacy risks increase due to the threat of quantum computers that can compromise long-term security by circumventing conventional cryptosystems and increasing the cost of countermeasures. While some defense mechanisms exist against these threats in isolation, there is a significant gap in the state of the art on a holistic solution against DoS attacks with privacy and anonymity for spectrum management systems, especially when post-quantum (PQ) security is in mind. In this paper, we propose a new cybersecurity framework PACDoSQ, which is (to the best of our knowledge) the first to offer location privacy and anonymity for spectrum management with counter DoS and PQ security simultaneously. Our solution introduces the private spectrum bastion (database) concept to exploit existing architectural features of spectrum management systems and then synergizes them with multi-server private information retrieval and PQ-secure Tor to guarantee a location-private and anonymous acquisition of spectrum information together with hash-based client-server puzzles for counter DoS. We prove that PACDoSQ achieves its security objectives, and show its feasibility via a comprehensive performance evaluation. | 翻訳日:2024-09-06 01:23:22 公開日:2024-09-03 |
# グラウンドニングからプランニングへ - Webエージェントのブートネックのベンチマーク
From Grounding to Planning: Benchmarking Bottlenecks in Web Agents ( http://arxiv.org/abs/2409.01927v1 ) ライセンス: Link先を確認 | Segev Shlomov, Ben wiesel, Aviad Sela, Ido Levy, Liane Galanti, Roy Abitbol, | (参考訳) 一般的なWebベースのエージェントは複雑なWeb環境と対話するのにますます不可欠だが、実世界のWebアプリケーションのパフォーマンスは依然として貧弱であり、最先端のフロンティアモデルでさえ極めて低い精度である。
我々はこれらのエージェントを2つの主要な構成要素であるプランニングとグラウンドに分解することができることを観察した。
しかし、既存のほとんどの研究は、これらのエージェントをブラックボックスとして扱い、エンド・ツー・エンドの評価に焦点を合わせ、有意義な改善を妨げている。
我々は,計画コンポーネントと接地コンポーネントの区別を強化し,Mind2Webデータセット上で実験を精査することによって,新たな分析を行う。
我々の研究は、エージェントのパフォーマンスを制限するボトルネックと痛み点を識別し、各コンポーネントに対して別々に新しいベンチマークを提案する。
一般的な仮定とは対照的に,グラウンドディングは重要なボトルネックではなく,現在の手法で効果的に対処できることが示唆された。
代わりに、主な課題は、パフォーマンス劣化の主な原因である計画コンポーネントにあります。
この分析を通じて、我々は、より信頼性の高いエージェントに道を開くことにより、Webエージェントの能力を向上させるための新しい洞察を提供し、実践的な提案を示す。
General web-based agents are increasingly essential for interacting with complex web environments, yet their performance in real-world web applications remains poor, yielding extremely low accuracy even with state-of-the-art frontier models. We observe that these agents can be decomposed into two primary components: Planning and Grounding. Yet, most existing research treats these agents as black boxes, focusing on end-to-end evaluations which hinder meaningful improvements. We sharpen the distinction between the planning and grounding components and conduct a novel analysis by refining experiments on the Mind2Web dataset. Our work proposes a new benchmark for each of the components separately, identifying the bottlenecks and pain points that limit agent performance. Contrary to prevalent assumptions, our findings suggest that grounding is not a significant bottleneck and can be effectively addressed with current techniques. Instead, the primary challenge lies in the planning component, which is the main source of performance degradation. Through this analysis, we offer new insights and demonstrate practical suggestions for improving the capabilities of web agents, paving the way for more reliable agents. | 翻訳日:2024-09-06 01:08:09 公開日:2024-09-03 |
# 総合エクイティ指標(CEI:Comprehensive Equity Index) : バイオメトリックスにおけるバイアス評価への定義と応用
Comprehensive Equity Index (CEI): Definition and Application to Bias Evaluation in Biometrics ( http://arxiv.org/abs/2409.01928v1 ) ライセンス: Link先を確認 | Imanol Solano, Alejandro Peña, Aythami Morales, Julian Fierrez, Ruben Tolosana, Francisco Zamora-Martinez, Javier San Agustin, | (参考訳) 本稿では,機械学習モデルのバイアス行動の定量化のための新しい指標を提案する。
その中核として、この計量は、それらの一般的な形状と尾の確率のバランスをとるスコア分布の間の新しい類似度計量から成り立っている。
その意味では、提案した計量は、多くの応用分野において有用かもしれない。
ここでは、顔認識システムの運用評価に焦点をあて、特に人口統計バイアスの定量化に留意する。
近年,生体認証システムにおける人口統計バイアスと公正性の話題が注目されている。
これらのシステムの利用は社会に広まり、これらのシステムが異なる集団群をどのように扱うかについて懸念が高まっている。
人口統計バイアスを予防し緩和するための重要なステップは、まずそれらを検知し、定量化することである。
伝統的に、機械学習文学における集団間の差異を定量化する2つの方法が研究されている。
1)誤差率の違いの測定、及び
2) 認識スコア分布の差を測定する。
提案した包括的等価指数(CEI)のトレードオフは,分布尾からの誤差と一般分布形状の両方を組み合わせたものである。
この新しい指標は、NIST FRVTの評価で測定されるような現実世界のシナリオによく適しており、高性能システムや幅広い共変量群や人口統計群を含む現実的な顔データベースを含む。
まず、現実的な設定におけるバイアスの存在を正しく評価するための既存のメトリクスの制限を示し、次に、これらの制限に対処するための新しいメトリクスを提案する。
提案したメトリクスを2つの最先端モデルと4つの広く使用されているデータベースで検証し、過去のバイアスメトリクスの主な欠陥を克服する能力を示した。
We present a novel metric designed, among other applications, to quantify biased behaviors of machine learning models. As its core, the metric consists of a new similarity metric between score distributions that balances both their general shapes and tails' probabilities. In that sense, our proposed metric may be useful in many application areas. Here we focus on and apply it to the operational evaluation of face recognition systems, with special attention to quantifying demographic biases; an application where our metric is especially useful. The topic of demographic bias and fairness in biometric recognition systems has gained major attention in recent years. The usage of these systems has spread in society, raising concerns about the extent to which these systems treat different population groups. A relevant step to prevent and mitigate demographic biases is first to detect and quantify them. Traditionally, two approaches have been studied to quantify differences between population groups in machine learning literature: 1) measuring differences in error rates, and 2) measuring differences in recognition score distributions. Our proposed Comprehensive Equity Index (CEI) trade-offs both approaches combining both errors from distribution tails and general distribution shapes. This new metric is well suited to real-world scenarios, as measured on NIST FRVT evaluations, involving high-performance systems and realistic face databases including a wide range of covariates and demographic groups. We first show the limitations of existing metrics to correctly assess the presence of biases in realistic setups and then propose our new metric to tackle these limitations. We tested the proposed metric with two state-of-the-art models and four widely used databases, showing its capacity to overcome the main flaws of previous bias metrics. | 翻訳日:2024-09-06 01:08:09 公開日:2024-09-03 |
# 効率的なLLMコンテキスト蒸留
Efficient LLM Context Distillation ( http://arxiv.org/abs/2409.01930v1 ) ライセンス: Link先を確認 | Rajesh Upadhayayaya, Zachary Smith, Chritopher Kottmyer, Manish Raj Osti, | (参考訳) 本稿では,タスク固有の例を内在化して有効性を拡張する手法として,文脈蒸留を特に検討し,モデル推論に利用できる例をさらに増やす。
This paper specifically investigates context distillation a method that extends the utility of task-specific examples by internalizing them, thus augmenting the example set accessible for model inference. | 翻訳日:2024-09-06 01:08:09 公開日:2024-09-03 |
# 分子力学と機械学習力場の設計空間について
On the design space between molecular mechanics and machine learning force fields ( http://arxiv.org/abs/2409.01931v1 ) ライセンス: Link先を確認 | Yuanqing Wang, Kenichiro Takaba, Michael S. Chen, Marcus Wieder, Yuzhi Xu, John Z. H. Zhang, Kuang Yu, Xinyan Wang, Linfeng Zhang, Daniel J. Cole, Joshua A. Rackers, Joe G. Greener, Peter Eastman, Stefano Martiniani, Mark E. Tuckerman, | (参考訳) 量子力学(QM)と同じくらい正確で、分子力学(MM)と同じくらい高速な力場。生体分子系を十分に効率的にシミュレートし、定量的な洞察を得ることができる。これは、生物物理学者の最も熱心な夢の1つだ。しかしながら、すぐに達成できない夢だ。機械学習力場(MLFF)は、この方向への有意義な取り組みを表している。そこでは、微分可能な神経関数がアブイニシオエネルギーに適合するようにパラメタ化され、さらに自動微分によってさらに多くの力が働く。現在、MLFFモデルの実用性は、主にその速度(安定性と一般性)によってボトルネックにはならず、最近の多くの化学領域における多くの変化は、化学的に1k/molの精度をはるかに上回っている。
本総説では, MM と ML の力場間の設計空間(速度-精度トレードオフ)に着目し, より高速かつ精度のよい MLFF の設計に着目する。
いずれかの力場の構築ブロックを概観した後、力場開発コミュニティが現在直面している望ましい特性と課題について考察し、MM力場をより正確化し、ML力場をより高速にするための取り組みを調査し、次世代MLFFがどのようなものになるのかを考察する。
A force field as accurate as quantum mechanics (QM) and as fast as molecular mechanics (MM), with which one can simulate a biomolecular system efficiently enough and meaningfully enough to get quantitative insights, is among the most ardent dreams of biophysicists -- a dream, nevertheless, not to be fulfilled any time soon. Machine learning force fields (MLFFs) represent a meaningful endeavor towards this direction, where differentiable neural functions are parametrized to fit ab initio energies, and furthermore forces through automatic differentiation. We argue that, as of now, the utility of the MLFF models is no longer bottlenecked by accuracy but primarily by their speed (as well as stability and generalizability), as many recent variants, on limited chemical spaces, have long surpassed the chemical accuracy of $1$ kcal/mol -- the empirical threshold beyond which realistic chemical predictions are possible -- though still magnitudes slower than MM. Hoping to kindle explorations and designs of faster, albeit perhaps slightly less accurate MLFFs, in this review, we focus our attention on the design space (the speed-accuracy tradeoff) between MM and ML force fields. After a brief review of the building blocks of force fields of either kind, we discuss the desired properties and challenges now faced by the force field development community, survey the efforts to make MM force fields more accurate and ML force fields faster, envision what the next generation of MLFF might look like. | 翻訳日:2024-09-06 01:08:09 公開日:2024-09-03 |
# IoTトラフィックパターンのモデリング:MSCデータセットの統計的解析からの洞察
Modeling IoT Traffic Patterns: Insights from a Statistical Analysis of an MTC Dataset ( http://arxiv.org/abs/2409.01932v1 ) ライセンス: Link先を確認 | David E. Ruiz-Guirola, Onel L. A. Løpez, Samuel Montejo-Sanchez, | (参考訳) IoT(Internet-of-Things)は急速に拡大し、多くのデバイスを接続し、私たちの日常生活に不可欠なものになっています。
これに伴い、効率的な交通管理の確保が重要となる。
効果的なIoTトラフィック管理には、機械学習(ML)技術が確かに魅力的である、固有のマシン型通信(MTC)のモデリングと予測が必要である。
しかし、MLベースの予測を再現するためのアクセス可能なプラットフォームとともに、包括的で高品質なデータセットを取得することは、研究の進歩を妨げ続けている。
本稿では,オウル大学のSmart Campus MTCデータセットを特徴付けることで,このギャップを埋めることを目的とする。
具体的には,Kolmogorov-Smirnov,Anderson-Darling,chi-squared,root mean square errorなどの確立したテストを含む,適合性試験を用いたMCCトラフィックの包括的統計解析を行う。
この分析は、データセットから識別される定期的な更新とイベント駆動の2つの重要なMSCトラフィックタイプを正確に表現する3つのモデルを調べ、評価することに焦点を当てている。
その結果,モデルが交通パターンを正確に特徴付けることがわかった。
Poissonポイントプロセスモデルは11%未満のエラーを伴うイベント駆動パターンに最も適しており、準周期モデルは7%未満のエラーを持つ定期的なトラフィックを正確に更新する。
The Internet-of-Things (IoT) is rapidly expanding, connecting numerous devices and becoming integral to our daily lives. As this occurs, ensuring efficient traffic management becomes crucial. Effective IoT traffic management requires modeling and predicting intrincate machine-type communication (MTC) dynamics, for which machine-learning (ML) techniques are certainly appealing. However, obtaining comprehensive and high-quality datasets, along with accessible platforms for reproducing ML-based predictions, continues to impede the research progress. In this paper, we aim to fill this gap by characterizing the Smart Campus MTC dataset provided by the University of Oulu. Specifically, we perform a comprehensive statistical analysis of the MTC traffic utilizing goodness-of-fit tests, including well-established tests such as Kolmogorov-Smirnov, Anderson-Darling, chi-squared, and root mean square error. The analysis centers on examining and evaluating three models that accurately represent the two most significant MTC traffic types: periodic updating and event-driven, which are also identified from the dataset. The results demonstrate that the models accurately characterize the traffic patterns. The Poisson point process model exhibits the best fit for event-driven patterns with errors below 11%, while the quasi-periodic model fits accurately the periodic updating traffic with errors below 7%. | 翻訳日:2024-09-06 01:08:09 公開日:2024-09-03 |
# 極低ビットレートでの地図支援リモートセンシング画像圧縮
Map-Assisted Remote-Sensing Image Compression at Extremely Low Bitrates ( http://arxiv.org/abs/2409.01935v1 ) ライセンス: Link先を確認 | Yixuan Ye, Ce Wang, Wanjie Sun, Zhenzhong Chen, | (参考訳) 極低ビットレートでのリモートセンシング(RS)画像圧縮は、エッジデバイスストレージや狭帯域伝送といった現実的なシナリオにおいて、常に難しい課題であった。
VAEやGANなどの生成モデルは、RS画像を極低ビットレートストリームに圧縮するために研究されている。
しかし、これらの生成モデルは、非常に低ビットレート画像圧縮の極めて不適切な性質のため、視覚的に可視な画像の再構成に苦慮している。
そこで,本稿では,高現実性再構築を実現するために,自然画像に先行した事前学習による拡散モデルを用いた画像圧縮フレームワークを提案する。
しかし拡散モデルは、限られたビットレートにおいて重要な情報損失のため、小さな構造やテクスチャを幻覚させる傾向がある。
そこで本研究では,ベクトルマップを意味的・構造的ガイダンスとして導入し,新しい画像圧縮手法である Map-Assisted Generative Compression (MAGC) を提案する。
MAGCは2段階のパイプラインを使用して、RS画像を極低ビットレートで圧縮・圧縮する。
最初のステージは画像を潜在表現にマッピングし、VAEアーキテクチャでさらに圧縮してビットレートを保存し、その後の拡散過程において暗黙のガイダンスとして機能させる。
第2段階は条件拡散モデルを実行し、暗黙的なガイダンスと明示的な意味的ガイダンスを用いて視覚的に快く、意味的に正確な結果を生成する。
定量的および定性的な比較により,本手法は知覚的品質と意味的正確性の観点から,標準コーデックや他の学習ベース手法よりも優れていることが示された。
データセットとコードはhttps://github.com/WHUyyx/MAGC.comで公開される。
Remote-sensing (RS) image compression at extremely low bitrates has always been a challenging task in practical scenarios like edge device storage and narrow bandwidth transmission. Generative models including VAEs and GANs have been explored to compress RS images into extremely low-bitrate streams. However, these generative models struggle to reconstruct visually plausible images due to the highly ill-posed nature of extremely low-bitrate image compression. To this end, we propose an image compression framework that utilizes a pre-trained diffusion model with powerful natural image priors to achieve high-realism reconstructions. However, diffusion models tend to hallucinate small structures and textures due to the significant information loss at limited bitrates. Thus, we introduce vector maps as semantic and structural guidance and propose a novel image compression approach named Map-Assisted Generative Compression (MAGC). MAGC employs a two-stage pipeline to compress and decompress RS images at extremely low bitrates. The first stage maps an image into a latent representation, which is then further compressed in a VAE architecture to save bitrates and serves as implicit guidance in the subsequent diffusion process. The second stage conducts a conditional diffusion model to generate a visually pleasing and semantically accurate result using implicit guidance and explicit semantic guidance. Quantitative and qualitative comparisons show that our method outperforms standard codecs and other learning-based methods in terms of perceptual quality and semantic accuracy. The dataset and code will be publicly available at https://github.com/WHUyyx/MAGC. | 翻訳日:2024-09-06 01:08:09 公開日:2024-09-03 |
# 組込みアライメントの維持による画像検索のためのCLIPモデルの最適化
Optimizing CLIP Models for Image Retrieval with Maintained Joint-Embedding Alignment ( http://arxiv.org/abs/2409.01936v1 ) ライセンス: Link先を確認 | Konstantin Schall, Kai Uwe Barthel, Nico Hezel, Klaus Jung, | (参考訳) Contrastive Language and Image Pairing (CLIP)は、マルチメディア検索における変換手法であり、典型的には2つのニューラルネットワークを同時に訓練し、テキストと画像ペアの結合埋め込みを生成する。
しかしながら、直接適用する場合、これらのモデルは、類似のキャプションを持つ視覚的に異なる画像の区別に苦慮し、画像ベース類似性検索の最適化性能が低下する。
本稿では,テキスト・ツー・イメージ検索やゼロショット分類などのテキスト検索タスクにおいて,CLIPモデルを様々な画像ベース類似検索シナリオに最適化することの課題に対処する。
テキストと画像の埋め込みの整合性を損なうことなく,CLIPの検索能力を改良するための2つの新しい手法を提案し,評価する。
最初の方法はシーケンシャルな微調整プロセスで、最初はより正確な画像検索のために画像エンコーダを最適化し、その後、これらの最適化された画像埋め込みにテキストエンコーダを配置する。
第2のアプローチは、検索最適化フェーズ中に擬似カプセルを統合し、埋め込み空間内での直接アライメントを促進する。
総合的な実験を通じて,画像検索,k-NN分類,ゼロショットテキストベース分類など,さまざまなベンチマークにおいてCLIPの性能を向上させるとともに,テキスト・ツー・イメージ検索の堅牢性を維持していることを示す。
最適化されたモデルでは,画像毎の単一の埋め込みが可能であるため,大規模なマルチモーダル類似検索システムに必要なインフラが大幅に簡素化される。
Contrastive Language and Image Pairing (CLIP), a transformative method in multimedia retrieval, typically trains two neural networks concurrently to generate joint embeddings for text and image pairs. However, when applied directly, these models often struggle to differentiate between visually distinct images that have similar captions, resulting in suboptimal performance for image-based similarity searches. This paper addresses the challenge of optimizing CLIP models for various image-based similarity search scenarios, while maintaining their effectiveness in text-based search tasks such as text-to-image retrieval and zero-shot classification. We propose and evaluate two novel methods aimed at refining the retrieval capabilities of CLIP without compromising the alignment between text and image embeddings. The first method involves a sequential fine-tuning process: initially optimizing the image encoder for more precise image retrieval and subsequently realigning the text encoder to these optimized image embeddings. The second approach integrates pseudo-captions during the retrieval-optimization phase to foster direct alignment within the embedding space. Through comprehensive experiments, we demonstrate that these methods enhance CLIP's performance on various benchmarks, including image retrieval, k-NN classification, and zero-shot text-based classification, while maintaining robustness in text-to-image retrieval. Our optimized models permit maintaining a single embedding per image, significantly simplifying the infrastructure needed for large-scale multi-modal similarity search systems. | 翻訳日:2024-09-06 01:08:09 公開日:2024-09-03 |
# 医療用Q&A評価のための大規模言語モデルの活用に向けて
Towards Leveraging Large Language Models for Automated Medical Q&A Evaluation ( http://arxiv.org/abs/2409.01941v1 ) ライセンス: Link先を確認 | Jack Krolik, Herprit Mahal, Feroz Ahmad, Gaurav Trivedi, Bahador Saket, | (参考訳) 本稿では,医療質問・回答システム(Q\&A)における応答評価の自動化にLarge Language Models (LLMs) を用いることの可能性について検討する。
伝統的に、これらの応答の質を評価するには人間の評価が不可欠である。
しかし、医療専門家による手作業による評価には時間と費用がかかる。
本研究は, LLMが患者データから導出した質問を用いて, 人的評価を確実に再現できるかどうかを考察し, 医療専門家にとって貴重な時間を節約できるかどうかを検討した。
これらの結果は有望な結果を示しているが、この最初の調査の範囲を超えた、より具体的で複雑な問題に対処するためには、さらなる研究が必要である。
This paper explores the potential of using Large Language Models (LLMs) to automate the evaluation of responses in medical Question and Answer (Q\&A) systems, a crucial form of Natural Language Processing. Traditionally, human evaluation has been indispensable for assessing the quality of these responses. However, manual evaluation by medical professionals is time-consuming and costly. Our study examines whether LLMs can reliably replicate human evaluations by using questions derived from patient data, thereby saving valuable time for medical experts. While the findings suggest promising results, further research is needed to address more specific or complex questions that were beyond the scope of this initial investigation. | 翻訳日:2024-09-06 01:08:09 公開日:2024-09-03 |
# 一辺交叉最小化のための量子アルゴリズム
Quantum Algorithms for One-Sided Crossing Minimization ( http://arxiv.org/abs/2409.01942v1 ) ライセンス: Link先を確認 | Susanna Caroppo, Giordano Da Lozzo, Giuseppe Di Battista, | (参考訳) 本稿では,1-Sided Crossing Minimization (OSCM) 問題に対する単項量子アルゴリズムを提案する。
$n$-vertex bipartite graph $G=(U,V,E\subseteq U \times V)$, a $2$-level drawing $(\pi_U,\pi_V)$ of $G$は、$\pi_U: U \leftrightarrow \{1,\dots,|U|\}$ of $U$と、$\pi_V: V \leftrightarrow \{1,\dots,|V|\}$ of $V$で表される。
固定線形順序付け $\pi_U$ of $U$ に対して、OSCM 問題は、最小のエッジ交差数を持つ 2$ レベルの描画 $(\pi_U,\pi_V)$ of $G$ を得る線形順序付け $\pi_V$ of $V$ を求める。
我々は、OSCMを古典的なアルゴリズムに対して、量子スピードアップを持つ正確なアルゴリズムに対して、$V$以上の集合問題と見なせることを示す。
まず、Ambainis et al[指数時間動的プログラミングアルゴリズムのための量子スピードアップ]の量子動的プログラミングフレームワークを利用して、OSCMを時間と空間で$O^*(1.728^n)で解くQRAMベースのアルゴリズムを考案する。
第二に、量子分割法を用いて、時間と多項式空間においてQRAMを使わずにOSCMを解くアルゴリズムを得る。
We present singly-exponential quantum algorithms for the One-Sided Crossing Minimization (OSCM) problem. Given an $n$-vertex bipartite graph $G=(U,V,E\subseteq U \times V)$, a $2$-level drawing $(\pi_U,\pi_V)$ of $G$ is described by a linear ordering $\pi_U: U \leftrightarrow \{1,\dots,|U|\}$ of $U$ and linear ordering $\pi_V: V \leftrightarrow \{1,\dots,|V|\}$ of $V$. For a fixed linear ordering $\pi_U$ of $U$, the OSCM problem seeks to find a linear ordering $\pi_V$ of $V$ that yields a $2$-level drawing $(\pi_U,\pi_V)$ of $G$ with the minimum number of edge crossings. We show that OSCM can be viewed as a set problem over $V$ amenable for exact algorithms with a quantum speedup with respect to their classical counterparts. First, we exploit the quantum dynamic programming framework of Ambainis et al. [Quantum Speedups for Exponential-Time Dynamic Programming Algorithms. SODA 2019] to devise a QRAM-based algorithm that solves OSCM in $O^*(1.728^n)$ time and space. Second, we use quantum divide and conquer to obtain an algorithm that solves OSCM without using QRAM in $O^*(2^n)$ time and polynomial space. | 翻訳日:2024-09-06 01:08:09 公開日:2024-09-03 |
# FuzzCoder: 大きな言語モデルによるバイトレベルのファジリングテスト
FuzzCoder: Byte-level Fuzzing Test via Large Language Model ( http://arxiv.org/abs/2409.01944v1 ) ライセンス: Link先を確認 | Liqun Yang, Jian Yang, Chaoren Wei, Guanglin Niu, Ge Zhang, Yunli Wang, Linzheng ChaI, Wanxu Xia, Hongcheng Guo, Shun Zhang, Jiaheng Liu, Yuwei Yin, Junran Peng, Jiaxin Ma, Liang Sun, Zhoujun Li, | (参考訳) ファジィングは複雑なソフトウェアの脆弱性を見つけるために設計された重要な動的プログラム解析技術である。
ファジィングは、クラッシュ、バッファオーバーフロー、メモリエラー、例外を引き起こす悪質な入力を持つターゲットプログラムを提示する。
悪意のある入力を効率的な方法で作成することは難しいオープン問題であり、最良のアプローチは、しばしば既存の有効な入力に均一なランダムな突然変異を適用する。
本研究では,入力ファイルのパターンを攻撃から学習し,将来的なファジング探索を導くために,微調整された大規模言語モデル (FuzzCoder) を採用することを提案する。
具体的には、ファジィングにおける入力の突然変異過程を導くために、コードLLMを利用するフレームワークを開発する。
突然変異過程はシーケンス・ツー・シーケンス・モデリング(Sequence-to-Sequence modeling)として定式化され、LSMはバイトのシーケンスを受け取り、変更したバイトのシーケンスを出力する。
FuzzCoderは生成した命令データセット(Fuzz-Instruct)に基づいて微調整される。
FuzzCoderは、プログラムの異常な動作を引き起こすために、入力ファイル内の突然変異位置と戦略位置を予測することができる。
AFL(American Fuzzy Lop)をベースとしたFuzzCoderは,ELF,JPG,MP3,XMLなどの各種入力フォーマットに対して,EPMとNCの数で大幅に改善されている。
Fuzzing is an important dynamic program analysis technique designed for finding vulnerabilities in complex software. Fuzzing involves presenting a target program with crafted malicious input to cause crashes, buffer overflows, memory errors, and exceptions. Crafting malicious inputs in an efficient manner is a difficult open problem and the best approaches often apply uniform random mutations to pre-existing valid inputs. In this work, we propose to adopt fine-tuned large language models (FuzzCoder) to learn patterns in the input files from successful attacks to guide future fuzzing explorations. Specifically, we develop a framework to leverage the code LLMs to guide the mutation process of inputs in fuzzing. The mutation process is formulated as the sequence-to-sequence modeling, where LLM receives a sequence of bytes and then outputs the mutated byte sequence. FuzzCoder is fine-tuned on the created instruction dataset (Fuzz-Instruct), where the successful fuzzing history is collected from the heuristic fuzzing tool. FuzzCoder can predict mutation locations and strategies locations in input files to trigger abnormal behaviors of the program. Experimental results show that FuzzCoder based on AFL (American Fuzzy Lop) gain significant improvements in terms of effective proportion of mutation (EPM) and number of crashes (NC) for various input formats including ELF, JPG, MP3, and XML. | 翻訳日:2024-09-06 01:08:09 公開日:2024-09-03 |
# 防衛対応アーキテクチャバックドアによる大規模言語モデルの脆弱性の解明
Exploiting the Vulnerability of Large Language Models via Defense-Aware Architectural Backdoor ( http://arxiv.org/abs/2409.01952v1 ) ライセンス: Link先を確認 | Abdullah Arafat Miah, Yu Bi, | (参考訳) ディープニューラルネットワーク(DNN)は、バックドア攻撃に対する脆弱性として長年認識されてきた。
微調整の過程で有毒な訓練データを提供することで、攻撃者は被害者モデルにバックドアを埋め込むことができる。
これにより、特定のテキストトリガーパターンを満たす入力サンプルを、攻撃者の選択したターゲットラベルに分類することができる。
このようなブラックボックス攻撃はコンピュータビジョンと自然言語処理(NLP)の両方でよく研究されているが、ホワイトボックス攻撃の哲学に依存するバックドア攻撃はほとんど研究されていない。
本稿では,基盤となるモデルアーキテクチャ内に隠蔽する新しいタイプのバックドアアタックを導入するための第一歩を踏み出す。
具体的には、1996年。
Roposeは2つの機能、トリガー検出とノイズ注入からなる別々のバックドアモジュールを設計する。
モデルアーキテクチャレイヤのアドオンモジュールは、入力トリガトークンの存在を検出し、ガウスノイズを使って層重みを変更することで、ベースラインモデルの特徴分布を乱すことができる。
我々は,5つの大言語データセットの2つのモデルアーキテクチャ設定を用いて,攻撃方法を評価するための広範囲な実験を行った。
大規模言語モデルのトレーニング不要なアーキテクチャバックドアが真の脅威となることを実証する。
最先端の作業とは違って、厳密な微調整と再訓練プロセスや、出力確率ベースの防御方法(BDDR)を回避できる。
すべてのコードとデータはhttps://github.com/SiSL-URI/Arch_Backdoor_LLMで利用可能である。
Deep neural networks (DNNs) have long been recognized as vulnerable to backdoor attacks. By providing poisoned training data in the fine-tuning process, the attacker can implant a backdoor into the victim model. This enables input samples meeting specific textual trigger patterns to be classified as target labels of the attacker's choice. While such black-box attacks have been well explored in both computer vision and natural language processing (NLP), backdoor attacks relying on white-box attack philosophy have hardly been thoroughly investigated. In this paper, we take the first step to introduce a new type of backdoor attack that conceals itself within the underlying model architecture. Specifically, we pcricKet1996!ropose to design separate backdoor modules consisting of two functions: trigger detection and noise injection. The add-on modules of model architecture layers can detect the presence of input trigger tokens and modify layer weights using Gaussian noise to disturb the feature distribution of the baseline model. We conduct extensive experiments to evaluate our attack methods using two model architecture settings on five different large language datasets. We demonstrate that the training-free architectural backdoor on a large language model poses a genuine threat. Unlike the-state-of-art work, it can survive the rigorous fine-tuning and retraining process, as well as evade output probability-based defense methods (i.e. BDDR). All the code and data is available https://github.com/SiSL-URI/Arch_Backdoor_LLM. | 翻訳日:2024-09-06 01:08:09 公開日:2024-09-03 |
# 自己計算とゼロ知識検証による電子決済
Private Electronic Payments with Self-Custody and Zero-Knowledge Verified Reissuance ( http://arxiv.org/abs/2409.01958v1 ) ライセンス: Link先を確認 | Daniele Friolo, Geoffrey Goodell, Dann Toliver, Hazem Danny Nakib, | (参考訳) この記事では、Goodell氏、Toliver氏、Nakib氏が説明したデジタルトランスファーのプロトコルに基づいています。
我々は,再発行された資産が,発行者以外の者による新規資産の発行を禁じる規則に従って作成されたことの確認を可能にするため,当該資産が作成されている状況に関する情報を公開せずに,当該資産が発行者を特定することができるようにプロトコルを拡張した。
修正されたプロトコルは、監査ログとゼロ知識証明を組み合わせることで、どのエントリがどのエントリであるかを特定することなく、アセットに関連付けられた監査ログに有効なエントリが存在することを示すことができる。
この資産は、システムオペレーターが原発行者の制御範囲に関与することなく、システム内で再発行される資金を許容する手段として重要である。
また、プライバシを尊重する電子決済の重要な性質として、ある取引から次の取引まで秘密を保管する必要がなくなり、デジタル資産の保管に対するセキュリティ要件と、脅迫や強制のリスクを、支払い履歴に関する情報を流出させる手段として、この性質が不可欠であると主張する。
我々は、当社のプロトコルの設計は、支払い取引に関する支払者の匿名性を強く保護すると同時に、原発行者以外の当事者による資産の創出を、同等の価値の資産を破壊することなく防止すると主張している。
This article builds upon the protocol for digital transfers described by Goodell, Toliver, and Nakib, which combines privacy by design for consumers with strong compliance enforcement for recipients of payments and self-validating assets that carry their own verifiable provenance information. We extend the protocol to allow for the verification that reissued assets were created in accordance with rules prohibiting the creation of new assets by anyone but the issuer, without exposing information about the circumstances in which the assets were created that could be used to identify the payer. The modified protocol combines an audit log with zero-knowledge proofs, so that a consumer spending an asset can demonstrate that there exists a valid entry on the audit log that is associated with the asset, without specifying which entry it is. This property is important as a means to allow money to be reissued within the system without the involvement of system operators within the zone of control of the original issuer. Additionally, we identify a key property of privacy-respecting electronic payments, wherein the payer is not required to retain secrets arising from one transaction until the following transaction, and argue that this property is essential to framing security requirements for storage of digital assets and the risk of blackmail or coercion as a way to exfiltrate information about payment history. We claim that the design of our protocol strongly protects the anonymity of payers with respect to their payment transactions, while preventing the creation of assets by any party other than the original issuer without destroying assets of equal value. | 翻訳日:2024-09-06 01:08:09 公開日:2024-09-03 |
# MetaFood3D:栄養価を持つ大型3D食品オブジェクトデータセット
MetaFood3D: Large 3D Food Object Dataset with Nutrition Values ( http://arxiv.org/abs/2409.01966v1 ) ライセンス: Link先を確認 | Yuhao Chen, Jiangpeng He, Chris Czarnecki, Gautham Vinod, Talha Ibn Mahmud, Siddeshwar Raghavan, Jinge Ma, Dayou Mao, Saeejith Nair, Pengcheng Xi, Alexander Wong, Edward Delp, Fengqing Zhu, | (参考訳) 食品コンピューティングはコンピュータビジョン(CV)において重要かつ困難である。
これは、分類やインスタンスセグメンテーションから3D再構成に至るまで、さまざまなアプリケーションにまたがるデータセットに頻繁に存在するため、CVアルゴリズムの開発に大きく貢献する。
食品の多形形状とテクスチャは、言語記述や栄養データを含む多モーダル情報の多様性と相まって、現代のCVアルゴリズムの複雑で要求の多いタスクとなっている。
3Dフードモデリングは、ランダムなカメラビューに対処する固有の能力と、食品部分のサイズを計算するための直接的な表現のため、食品関連の問題に対処するための新たなフロンティアである。
しかし、食品オブジェクト分析のためのアルゴリズムの開発における主要なハードルは、既存の3Dデータセットにおける栄養価の欠如である。
さらに、より広い3D研究分野においては、ドメイン固有のテストデータセットが不可欠である。
一般の3Dビジョンと食品コンピューティング研究のギャップを埋めるため,MetaFood3Dを提案する。
このデータセットは、詳細な栄養情報、体重、および包括的栄養データベースに関連付けられた食品コードを含む、108カテゴリにわたる637の細かな3D食品オブジェクトから成っている。
このデータセットはクラス内の多様性を強調しており、テクスチャ化されたメッシュファイル、RGB-Dビデオ、セグメンテーションマスクなどのリッチなモダリティを含んでいる。
実験の結果、我々のデータセットがアルゴリズムの性能を向上させる重要な可能性を実証し、ビデオキャプチャと3Dスキャンされたデータの間の困難さを強調し、高品質なデータ生成、シミュレーション、拡張におけるMetaFood3Dデータセットの強みを示した。
Food computing is both important and challenging in computer vision (CV). It significantly contributes to the development of CV algorithms due to its frequent presence in datasets across various applications, ranging from classification and instance segmentation to 3D reconstruction. The polymorphic shapes and textures of food, coupled with high variation in forms and vast multimodal information, including language descriptions and nutritional data, make food computing a complex and demanding task for modern CV algorithms. 3D food modeling is a new frontier for addressing food-related problems, due to its inherent capability to deal with random camera views and its straightforward representation for calculating food portion size. However, the primary hurdle in the development of algorithms for food object analysis is the lack of nutrition values in existing 3D datasets. Moreover, in the broader field of 3D research, there is a critical need for domain-specific test datasets. To bridge the gap between general 3D vision and food computing research, we propose MetaFood3D. This dataset consists of 637 meticulously labeled 3D food objects across 108 categories, featuring detailed nutrition information, weight, and food codes linked to a comprehensive nutrition database. The dataset emphasizes intra-class diversity and includes rich modalities such as textured mesh files, RGB-D videos, and segmentation masks. Experimental results demonstrate our dataset's significant potential for improving algorithm performance, highlight the challenging gap between video captures and 3D scanned data, and show the strength of the MetaFood3D dataset in high-quality data generation, simulation, and augmentation. | 翻訳日:2024-09-06 01:08:09 公開日:2024-09-03 |
# 機械学習: 概念指向言語の研究
Learning Machines: In Search of a Concept Oriented Language ( http://arxiv.org/abs/2409.01968v1 ) ライセンス: Link先を確認 | Veyis Gunes, | (参考訳) データ/デジタル革命の次のステップは何か?
この目的を達成するのに何が一番必要か?
機械はどのように記憶、学習、発見できるのか?
インテリジェント"として資格を得るためには,何をすべきか?
これらの疑問は次世代の「知性」マシンに関連している。
おそらくこれらのマシンは、知識発見、意思決定、概念を扱うことができるはずだ。
本稿では、歴史的貢献を考慮し、人間の知能の類推を通して、これらの異なる疑問について論じる。
また、概念指向言語のための一般的なフレームワークも提案する。
What is the next step after the data/digital revolution? What do we need the most to reach this aim? How machines can memorize, learn or discover? What should they be able to do to be qualified as "intelligent"? These questions relate to the next generation "intelligent" machines. Probably, these machines should be able to handle knowledge discovery, decision-making and concepts. In this paper, we will take into account some historical contributions and discuss these different questions through an analogy to human intelligence. Also, a general framework for a concept oriented language will be proposed. | 翻訳日:2024-09-06 01:08:09 公開日:2024-09-03 |
# 非線形リカレントニューラルネットワークの接続構造とダイナミクス
Connectivity structure and dynamics of nonlinear recurrent neural networks ( http://arxiv.org/abs/2409.01969v1 ) ライセンス: Link先を確認 | David G. Clark, Owen Marschall, Alexander van Meegen, Ashok Litwin-Kumar, | (参考訳) 本研究では, 非線形リカレントニューラルネットワークの高次元, 内部的に発生する動作を接続構造がどう形成するかを解析する理論を開発する。
2つの相補的手法(サドル点周辺のゆらぎの経路積分計算)と,最近導入された2サイトキャビティアプローチ)を用いて,その次元性や時間的相関など,集団活動の重要な特徴を特徴づける解析式を導出する。
電子顕微鏡を用いて得られるシナプスコネクトームなどの実回路の結合行列の構造をモデル化するために,ランダム入力および出力モードと特定スペクトルを用いて結合行列をパラメータ化するランダムモードモデルを提案する。
このモデルにより、低次元構造が神経活動に与える影響を体系的に研究することができる。
これらの効果は、私たちが計算した集合的活動の特徴に現れ、単一ニューロンの活動のみを分析する際には検出できない。
結合行列の有効ランクと活性の次元の関係を導出する。
ランダムモードモデルを拡張することにより、単一ニューロンの不均一性と低次元接続性の効果を比較する。
また,生体結合行列の特徴である入力モードと出力モードの重なり構造の影響についても検討した。
我々の理論は、ニューラルネットワークアーキテクチャと人工および生物学的システムにおける集合力学を関連付けるためのツールを提供する。
We develop a theory to analyze how structure in connectivity shapes the high-dimensional, internally generated activity of nonlinear recurrent neural networks. Using two complementary methods -- a path-integral calculation of fluctuations around the saddle point, and a recently introduced two-site cavity approach -- we derive analytic expressions that characterize important features of collective activity, including its dimensionality and temporal correlations. To model structure in the coupling matrices of real neural circuits, such as synaptic connectomes obtained through electron microscopy, we introduce the random-mode model, which parameterizes a coupling matrix using random input and output modes and a specified spectrum. This model enables systematic study of the effects of low-dimensional structure in connectivity on neural activity. These effects manifest in features of collective activity, that we calculate, and can be undetectable when analyzing only single-neuron activities. We derive a relation between the effective rank of the coupling matrix and the dimension of activity. By extending the random-mode model, we compare the effects of single-neuron heterogeneity and low-dimensional connectivity. We also investigate the impact of structured overlaps between input and output modes, a feature of biological coupling matrices. Our theory provides tools to relate neural-network architecture and collective dynamics in artificial and biological systems. | 翻訳日:2024-09-06 01:08:09 公開日:2024-09-03 |
# スナップショット:都市交通環境における歩行者軌道予測のためのアプリケーション中心モデルに向けて
Snapshot: Towards Application-centered Models for Pedestrian Trajectory Prediction in Urban Traffic Environments ( http://arxiv.org/abs/2409.01971v1 ) ライセンス: Link先を確認 | Nico Uhlemann, Yipeng Zhou, Tobias Mohr, Markus Lienkamp, | (参考訳) 本稿では,都市交通における歩行者軌道予測をモデル精度と実世界の適用性の両方に着目しながら検討する。
有望なアプローチは存在するが、一般には公開されておらず、交通関連の情報を除く歩行者データセットを取り巻くか、リアルタイム能力や堅牢性を持たないアーキテクチャに似ている。
これらの制約に対処するため、まずArgoverse 2に基づく専用ベンチマークを導入し、特に都市環境における歩行者を対象としている。
以下に示すのは、モジュラーでフィードフォワードのニューラルネットワークであるSnapshotで、現在の最先端をはるかに少ない情報を活用しながら、パフォーマンスを向上する。
エージェント中心の符号化スキームにもかかわらず、Snapshotはスケーラビリティ、リアルタイムパフォーマンス、さまざまなモーション履歴に対する堅牢性を示している。
さらに、Snapshotをモジュラー自動運転ソフトウェアスタックに統合することで、現実の応用性を示す。
This paper explores pedestrian trajectory prediction in urban traffic while focusing on both model accuracy and real-world applicability. While promising approaches exist, they are often not publicly available, revolve around pedestrian datasets excluding traffic-related information, or resemble architectures that are either not real-time capable or robust. To address these limitations, we first introduce a dedicated benchmark based on Argoverse 2, specifically targeting pedestrians in urban settings. Following this, we present Snapshot, a modular, feed-forward neural network that outperforms the current state of the art while utilizing significantly less information. Despite its agent-centric encoding scheme, Snapshot demonstrates scalability, real-time performance, and robustness to varying motion histories. Moreover, by integrating Snapshot into a modular autonomous driving software stack, we showcase its real-world applicability | 翻訳日:2024-09-06 00:50:24 公開日:2024-09-03 |
# 能動推論エージェントにおける非線形センサへのガウス近似による曖昧な状態回避計画
Planning to avoid ambiguous states through Gaussian approximations to non-linear sensors in active inference agents ( http://arxiv.org/abs/2409.01974v1 ) ライセンス: Link先を確認 | Wouter M. Kouw, | (参考訳) 自然界において、アクティブな推論エージェントは、世界の観察がエージェントの状態をどのように表現しているかを学ばなければならない。
工学において、センサーの背後にある物理は、しばしば合理的に正確に知られ、測定関数は生成モデルに組み込むことができる。
測定関数が非線形であるとき、変換された変数は典型的にはガウス分布と近似され、抽出可能な推論が保証される。
2階テイラー近似のような測定関数の曲率に敏感なガウス近似が状態依存曖昧性項を生成することを示す。
これにより、状態が観測からどれだけ正確に推測できるかに基づいて、状態よりも優先される。
エージェントが軌道を計画するロボットナビゲーション実験でこれを実証する。
In nature, active inference agents must learn how observations of the world represent the state of the agent. In engineering, the physics behind sensors is often known reasonably accurately and measurement functions can be incorporated into generative models. When a measurement function is non-linear, the transformed variable is typically approximated with a Gaussian distribution to ensure tractable inference. We show that Gaussian approximations that are sensitive to the curvature of the measurement function, such as a second-order Taylor approximation, produce a state-dependent ambiguity term. This induces a preference over states, based on how accurately the state can be inferred from the observation. We demonstrate this preference with a robot navigation experiment where agents plan trajectories. | 翻訳日:2024-09-06 00:50:24 公開日:2024-09-03 |
# 1DCNNTrans:BISINDO Sign Language Interpreters for Improving the Inclusiveness of Public Services
1DCNNTrans: BISINDO Sign Language Interpreters in Improving the Inclusiveness of Public Services ( http://arxiv.org/abs/2409.01975v1 ) ライセンス: Link先を確認 | Muchammad Daniyal Kautsar, Ridwan Akmal, Afra Majida Hariono, | (参考訳) インドネシアは、聴覚障害の件数で世界第4位である。
聴覚障害のある人は、しばしばコミュニケーションが困難であり、手話を使う必要がある。
しかし、そのような傾向を呈する公共サービスは限られている。
一方、人工知能(AI)の進歩は、聴覚障害者が直面するコミュニケーション障壁を克服する有望な解決策を提供する。
本研究の目的は,公立サービス施設への統合を目的とした簡易手話翻訳アプリと辞書のモデル開発におけるAIの適用を検討することであり,聴覚障害のある個人に対するコミュニケーションを容易にし,公共サービスにおけるインクリビティを高めることである。
研究者らは、手話認識のためのLSTMと1D CNN + Transformer(1DCNNTrans)モデルの性能を比較した。
厳密な試験と検証により、LSTMモデルは94.67%の精度を達成し、1DCNNTransモデルは96.12%の精度を達成した。
モデル性能評価の結果,LSTMは推論遅延が低かったが,類似したキーポイントを持つクラスを分類する際の弱点がみられた。
対照的に、1DCNNTransモデルではLSTMモデルよりも安定性が高く、F1スコアも高い値を示した。
どちらのモデルも優れた性能を示し、90%以上の検証精度を示し、50の手話ジェスチャーの素早い分類を示した。
Indonesia ranks fourth globally in the number of deaf cases. Individuals with hearing impairments often find communication challenging, necessitating the use of sign language. However, there are limited public services that offer such inclusivity. On the other hand, advancements in artificial intelligence (AI) present promising solutions to overcome communication barriers faced by the deaf. This study aims to explore the application of AI in developing models for a simplified sign language translation app and dictionary, designed for integration into public service facilities, to facilitate communication for individuals with hearing impairments, thereby enhancing inclusivity in public services. The researchers compared the performance of LSTM and 1D CNN + Transformer (1DCNNTrans) models for sign language recognition. Through rigorous testing and validation, it was found that the LSTM model achieved an accuracy of 94.67%, while the 1DCNNTrans model achieved an accuracy of 96.12%. Model performance evaluation indicated that although the LSTM exhibited lower inference latency, it showed weaknesses in classifying classes with similar keypoints. In contrast, the 1DCNNTrans model demonstrated greater stability and higher F1 scores for classes with varying levels of complexity compared to the LSTM model. Both models showed excellent performance, exceeding 90% validation accuracy and demonstrating rapid classification of 50 sign language gestures. | 翻訳日:2024-09-06 00:50:24 公開日:2024-09-03 |
# EVM互換ブロックチェーンのためのZKフレンドリーハッシュ関数とSNARK証明システムのベンチマーク
Benchmarking ZK-Friendly Hash Functions and SNARK Proving Systems for EVM-compatible Blockchains ( http://arxiv.org/abs/2409.01976v1 ) ライセンス: Link先を確認 | Hanze Guo, Yebo Feng, Cong Wu, Zengpeng Li, Jiahua Xu, | (参考訳) Zero-Knowledge Proofs (ZKPs) の急速な開発、特に Succinct Non-Interactive Arguments of Knowledge (SNARKs) により、様々なZKツールのベンチマークが重要な課題となっている。
ブロックチェーンの重要なアルゴリズムであるZKフレンドリなハッシュ関数は、大きな注目を集めている。
したがって、ZK回路におけるこれらの進化アルゴリズムの総合的なベンチマークと評価は、有望な機会と課題の両方を示す。
さらに、我々は、SNARKsのコスト効率を活用することを目的とした、一般的なZKPアプリケーション、プライバシ保護トランザクションプロトコルに焦点を当てている。
この目的のために我々は,Poseidon2,Neptune,GMiMCの自己開発回路テンプレートを含むSNARK証明システムと5つのZKフレンドリなハッシュ関数のベンチマークを行った。
また、SNARKベースのプライバシ保護トランザクションスキームにおける「シーケンス」の役割を導入し、効率を高め、フレキシブルな監査を可能にする。
プライバシーとセキュリティの分析を行い、Ethereum仮想マシン(EVM)互換チェーンの実装と評価を行った。
以上の結果から,Groth16下での証明生成において,PoseidonとPoseidon2はメモリ使用量と実行時間に優れていたことが示唆された。
さらに、ベースラインと比較して、Poseidon2は証明を高速に生成するだけでなく、EVMチェーンでは73%、Hederaでは26%近く削減する。
我々の研究は、ZKフレンドリなハッシュ関数とZKツールのベンチマークを提供し、ZKPベースのプライバシ保護トランザクションプロトコルにおけるコスト効率とコンプライアンスも検討しています。
With the rapid development of Zero-Knowledge Proofs (ZKPs), particularly Succinct Non-Interactive Arguments of Knowledge (SNARKs), benchmarking various ZK tools has become a valuable task. ZK-friendly hash functions, as key algorithms in blockchain, have garnered significant attention. Therefore, comprehensive benchmarking and evaluations of these evolving algorithms in ZK circuits present both promising opportunities and challenges. Additionally, we focus on a popular ZKP application, privacy-preserving transaction protocols, aiming to leverage SNARKs' cost-efficiency through "batch processing" to address high on-chain costs and compliance issues. To this end, we benchmarked three SNARK proving systems and five ZK-friendly hash functions, including our self-developed circuit templates for Poseidon2, Neptune, and GMiMC, on the bn254 curve within the circom-snarkjs framework. We also introduced the role of "sequencer" in our SNARK-based privacy-preserving transaction scheme to enhance efficiency and enable flexible auditing. We conducted privacy and security analyses, as well as implementation and evaluation on Ethereum Virtual Machine (EVM)-compatible chains. The results indicate that Poseidon and Poseidon2 demonstrate superior memory usage and runtime during proof generation under Groth16. Moreover, compared to the baseline, Poseidon2 not only generates proofs faster but also reduces on-chain costs by 73% on EVM chains and nearly 26% on Hedera. Our work provides a benchmark for ZK-friendly hash functions and ZK tools, while also exploring cost efficiency and compliance in ZKP-based privacy-preserving transaction protocols. | 翻訳日:2024-09-06 00:50:24 公開日:2024-09-03 |
# 実測値と実測値の組み合わせによる実測値の公正性
Counterfactual Fairness by Combining Factual and Counterfactual Predictions ( http://arxiv.org/abs/2409.01977v1 ) ライセンス: Link先を確認 | Zeyu Zhou, Tianci Liu, Ruqi Bai, Jing Gao, Murat Kocaoglu, David I. Inouye, | (参考訳) 医療や雇用といった高度な分野において、意思決定における機械学習(ML)の役割は、かなりの公平さの懸念を提起する。
この研究は、あらゆる個人に対するMLモデルの結果が、異なる人口集団に属していた場合、変化しないべきであると仮定する対実公正(CF)に焦点を当てている。
従来,CFを保証する手法が提案されてきた。
にもかかわらず、モデルの予測性能に対する影響はほとんど不明である。
このギャップを埋めるために、CFと予測性能との本質的にのトレードオフをモデルに依存しない方法で理論的に研究する。
まず, 最適性を損なうことなく, 最適かつ不公平な予測器を公平に投射する方法を提案する。
CFを達成するために過剰なリスクを分析することで、本質的なトレードオフを定量化する。
また,不完全な因果知識のみにアクセス可能な手法の性能解析を行った。
そこで本研究では,このようなシナリオに適用可能なパフォーマンスアルゴリズムを提案する。
合成データセットと半合成データセットの両方に関する実験は、我々の分析と方法の有効性を実証している。
In high-stake domains such as healthcare and hiring, the role of machine learning (ML) in decision-making raises significant fairness concerns. This work focuses on Counterfactual Fairness (CF), which posits that an ML model's outcome on any individual should remain unchanged if they had belonged to a different demographic group. Previous works have proposed methods that guarantee CF. Notwithstanding, their effects on the model's predictive performance remains largely unclear. To fill in this gap, we provide a theoretical study on the inherent trade-off between CF and predictive performance in a model-agnostic manner. We first propose a simple but effective method to cast an optimal but potentially unfair predictor into a fair one without losing the optimality. By analyzing its excess risk in order to achieve CF, we quantify this inherent trade-off. Further analysis on our method's performance with access to only incomplete causal knowledge is also conducted. Built upon it, we propose a performant algorithm that can be applied in such scenarios. Experiments on both synthetic and semi-synthetic datasets demonstrate the validity of our analysis and methods. | 翻訳日:2024-09-06 00:50:24 公開日:2024-09-03 |
# 量子自然勾配最適化アルゴリズムの高速化へのランゲヴィンダイナミクスの適用
Application of Langevin Dynamics to Advance the Quantum Natural Gradient Optimization Algorithm ( http://arxiv.org/abs/2409.01978v1 ) ライセンス: Link先を確認 | Oleksandr Borysenko, Mykhailo Bratchenko, Ilya Lukin, Mykola Luhanko, Ihor Omelchenko, Andrii Sotnikov, Alessandro Lomi, | (参考訳) 近年,変分量子回路の最適化のためのQNGアルゴリズムが提案されている。
本研究では,その離散時間解が,モメンタムQNGと呼ばれるアルゴリズムの一般化形式を与えることを示すために,QNG確率力を持つランゲヴィン方程式を用いる。
モーメントムQNGは、モーメントを持つ確率勾配Descent、モーメントを持つRMSProp、モーメントを持つモーメントムQNGなどのモーメント項を持つ他の最適化アルゴリズムと同様に、変分パラメータ空間の局所ミニマとプラトーを逃れるのに効果的であり、したがって基本QNGよりも収束挙動が良い。
私たちのオープンソースコードはhttps://github.com/borbysh/Momentum-QNGで公開されています。
A Quantum Natural Gradient (QNG) algorithm for optimization of variational quantum circuits has been proposed recently. In this study, we employ the Langevin equation with a QNG stochastic force to demonstrate that its discrete-time solution gives a generalized form of the above-specified algorithm, which we call Momentum-QNG. Similar to other optimization algorithms with the momentum term, such as the Stochastic Gradient Descent with momentum, RMSProp with momentum and Adam, Momentum-QNG is more effective to escape local minima and plateaus in the variational parameter space and, therefore, achieves a better convergence behavior compared to the basic QNG. Our open-source code is available at https://github.com/borbysh/Momentum-QNG | 翻訳日:2024-09-06 00:50:24 公開日:2024-09-03 |
# 異常・アウト・オブ・ディストリビューション検出のための大規模言語モデル:調査
Large Language Models for Anomaly and Out-of-Distribution Detection: A Survey ( http://arxiv.org/abs/2409.01980v1 ) ライセンス: Link先を確認 | Ruiyao Xu, Kaize Ding, | (参考訳) 異常検出やアウト・オブ・ディストリビューション(OOD)サンプルの検出は、マシンラーニングシステムの信頼性と信頼性を維持する上で重要である。
近年,Large Language Models (LLMs) は,自然言語処理だけでなく,その高度な理解と生成能力により,より広範な応用においてもその有効性を実証している。
LLMの異常とOOD検出への統合は、この分野の伝統的なパラダイムから大きく変わった。
本調査は,LLMの文脈下での異常検出とOOD検出の問題点に焦点を当てた。
LLMが果たす役割に基づいて,既存のアプローチを3つのクラスに分類する新たな分類法を提案する。
提案した分類学に続いて,各カテゴリの関連研究についてさらに議論し,今後の研究の課題と方向性について論じる。
関連論文の最新の読解リストも提供します。
Detecting anomalies or out-of-distribution (OOD) samples is critical for maintaining the reliability and trustworthiness of machine learning systems. Recently, Large Language Models (LLMs) have demonstrated their effectiveness not only in natural language processing but also in broader applications due to their advanced comprehension and generative capabilities. The integration of LLMs into anomaly and OOD detection marks a significant shift from the traditional paradigm in the field. This survey focuses on the problem of anomaly and OOD detection under the context of LLMs. We propose a new taxonomy to categorize existing approaches into three classes based on the role played by LLMs. Following our proposed taxonomy, we further discuss the related work under each of the categories and finally discuss potential challenges and directions for future research in this field. We also provide an up-to-date reading list of relevant papers. | 翻訳日:2024-09-06 00:50:24 公開日:2024-09-03 |
# コンテキストのオブザービングは、レースが観測されない場合の異質度推定を改善する
Observing Context Improves Disparity Estimation when Race is Unobserved ( http://arxiv.org/abs/2409.01984v1 ) ライセンス: Link先を確認 | Kweku Kwegyir-Aggrey, Naveen Durvasula, Jennifer Wang, Suresh Venkatasubramanian, | (参考訳) 多くの領域では、人種格差を推定するために必要な人種データを得るのは難しい。
この問題に対処するため、実践者は、保護されていない共変量を用いて競合を予測するプロキシメソッドを採用した。
しかし、これらのプロキシは、特に少数派に対して偏りのある見積もりをもたらし、現実の効用を制限している。
本稿では,既存の手法を進化させる2つの新しい文脈プロキシモデルを提案する。
これらのアルゴリズムは,実世界の住宅ローンと有権者データに対する格差を推定する上で,大幅な性能向上を示す。
文脈的プロキシによる不偏差推定の達成は平均整合性(キャリブレーションのような条件)に依存している。
In many domains, it is difficult to obtain the race data that is required to estimate racial disparity. To address this problem, practitioners have adopted the use of proxy methods which predict race using non-protected covariates. However, these proxies often yield biased estimates, especially for minority groups, limiting their real-world utility. In this paper, we introduce two new contextual proxy models that advance existing methods by incorporating contextual features in order to improve race estimates. We show that these algorithms demonstrate significant performance improvements in estimating disparities on real-world home loan and voter data. We establish that achieving unbiased disparity estimates with contextual proxies relies on mean-consistency, a calibration-like condition. | 翻訳日:2024-09-06 00:50:24 公開日:2024-09-03 |
# UNSURE:未知の騒音レベルステインのアンバイアスド・リスク・エスペクター
UNSURE: Unknown Noise level Stein's Unbiased Risk Estimator ( http://arxiv.org/abs/2409.01985v1 ) ライセンス: Link先を確認 | Julián Tachella, Mike Davies, Laurent Jacques, | (参考訳) 近年,ノイズの多いデータのみから学習できる画像再構成のための自己教師型学習法が数多く提案されている。
既存のメソッドのほとんどは、2つのクラスの周りにクラスタリングします。
一 騒音分布に関する非常に穏やかな知識を必要とする騒音2自己及び類似のクロスバリデーション方法
二 スタインの無バイアスリスク推定器(SURE)及び分布の完全な知識を前提とした同様のアプローチ
第1の手法は教師付き学習と比較して最適でない場合が多く、第2の手法は現実の応用では一般にノイズレベルが知られていないため、実用的でない場合が多い。
本稿では,この表現性-腐食性トレードオフを特徴付ける理論的枠組みを提案し,SUREに基づく新しいアプローチを提案するが,標準のSUREとは異なり,ノイズレベルに関する知識は不要である。
一連の実験を通して,提案した推定器は,様々な画像逆問題において,既存の自己監督手法よりも優れていることを示す。
Recently, many self-supervised learning methods for image reconstruction have been proposed that can learn from noisy data alone, bypassing the need for ground-truth references. Most existing methods cluster around two classes: i) Noise2Self and similar cross-validation methods that require very mild knowledge about the noise distribution, and ii) Stein's Unbiased Risk Estimator (SURE) and similar approaches that assume full knowledge of the distribution. The first class of methods is often suboptimal compared to supervised learning, and the second class is often impractical, as the noise level is generally unknown in real-world applications. In this paper, we provide a theoretical framework that characterizes this expressivity-robustness trade-off and propose a new approach based on SURE, but unlike the standard SURE, does not require knowledge about the noise level. Throughout a series of experiments, we show that the proposed estimator outperforms other existing self-supervised methods on various imaging inverse problems. | 翻訳日:2024-09-06 00:50:24 公開日:2024-09-03 |
# 自己検証型量子エラー訂正符号:計算硬度の解析
Self-Testing Quantum Error Correcting Codes: Analyzing Computational Hardness ( http://arxiv.org/abs/2409.01987v1 ) ライセンス: Link先を確認 | En-Jui Kuo, Li-Yi Hsu, | (参考訳) 我々は、量子 [[n,k,d] の傾きベルの不等式を一般化し、最も単純な完全符号、[5,1,3] 符号、Steane [[7,1,3] 符号、およびShor's [[9,1,3] 符号を明示的に利用し、それぞれの符号空間の自己検査特性を実証する。
さらに我々は,CSS安定化器のコード空間に一般化可能な,自己テストの証明のためのフレームワークを,‘cite{baccari2020device} で詳述した。
我々の手法は、$\cos\theta \lvert \bar{0} \rangle + \sin\theta \lvert \bar{1} \rangle$に対して自己テストスキームを提供する。
また、そのような性質がquditに一般化できるかどうかも検討し、1つのno-go定理を示す。
次に、ISSELFTESTと呼ばれる計算問題を定義し、この問題の定式化を、特定のベル型不等式に対する最大違反が、特定の絡み合い部分空間を自己テストできるという声明として解釈する。
また、ISSELFTESTの計算複雑性を、他の古典的複雑性問題や関連するオープン問題と比較する。
We present a generalization of the tilted Bell inequality for quantum [[n,k,d]] error-correcting codes and explicitly utilize the simplest perfect code, the [[5,1,3]] code, the Steane [[7,1,3]] code, and Shor's [[9,1,3]] code, to demonstrate the self-testing property of their respective codespaces. Additionally, we establish a framework for the proof of self-testing, as detailed in \cite{baccari2020device}, which can be generalized to the codespace of CSS stabilizers. Our method provides a self-testing scheme for $\cos\theta \lvert \bar{0} \rangle + \sin\theta \lvert \bar{1} \rangle$, where $\theta \in [0, \frac{\pi}{2}]$, and also discusses its experimental application. We also investigate whether such property can be generalized to qudit and show one no-go theorem. We then define a computational problem called ISSELFTEST and describe how this problem formulation can be interpreted as a statement that maximal violation of a specific Bell-type inequality can self-test a particular entanglement subspace. We also discuss the computational complexity of ISSELFTEST in comparison to other classical complexity challenges and some related open problems. | 翻訳日:2024-09-06 00:50:24 公開日:2024-09-03 |
# 解釈型データ駆動アプローチによるターゲット陰極負荷の電解質特性の改善
Improving Electrolyte Performance for Target Cathode Loading Using Interpretable Data-Driven Approach ( http://arxiv.org/abs/2409.01989v1 ) ライセンス: Link先を確認 | Vidushi Sharma, Andy Tek, Khanh Nguyen, Max Giammona, Murtaza Zohair, Linda Sundberg, Young-Hye La, | (参考訳) 電池、特に変換反応に基づく電池において、エネルギー密度とコスト効率を高めるために、活性電極材料のより高負荷が望まれる。
しかし, 電極内での活性物質負荷の増加は, 内部抵抗, シャットリング, 寄生側反応による顕著な性能低下を引き起こし, 電解質の相溶性設計によってある程度緩和される。
本研究では, ターゲット陰極負荷に特有な新規なハロゲン間電池の高性能電解質定式化を実現するために, データ駆動方式を用いる。
4つの溶媒と4つの塩からなる電解質の設計は、多電子酸化還元反応に基づく新規なハロゲン電池のために実験的に考案された。
可変電解質組成とアクティブカソード負荷を用いた実験データセットは、電池の材料設計における変数をその特定の容量にマッピングするグラフベースのディープラーニングモデルを訓練するために使用される。
訓練されたモデルは、大規模スクリーニングと異なる陰極負荷に対する電解質設計原則の解釈という2つのアプローチにより、目標陰極負荷時の電池容量を向上させるための電解質製剤組成物をさらに最適化するために使用される。
データ駆動型アプローチは、実験最適化から得られる容量よりも、バッテリの特定の容量を20%増やすことを実証している。
Higher loading of active electrode materials is desired in batteries, especially those based on conversion reactions, for enhanced energy density and cost efficiency. However, increasing active material loading in electrodes can cause significant performance depreciation due to internal resistance, shuttling, and parasitic side reactions, which can be alleviated to a certain extent by a compatible design of electrolytes. In this work, a data-driven approach is leveraged to find a high-performing electrolyte formulation for a novel interhalogen battery custom to the target cathode loading. An electrolyte design consisting of 4 solvents and 4 salts is experimentally devised for a novel interhalogen battery based on a multi-electron redox reaction. The experimental dataset with variable electrolyte compositions and active cathode loading, is used to train a graph-based deep learning model mapping changing variables in the battery's material design to its specific capacity. The trained model is used to further optimize the electrolyte formulation compositions for enhancing the battery capacity at a target cathode loading by a two-fold approach: large-scale screening and interpreting electrolyte design principles for different cathode loadings. The data-driven approach is demonstrated to bring about an additional 20% increment in the specific capacity of the battery over capacities obtained from the experimental optimization. | 翻訳日:2024-09-06 00:50:24 公開日:2024-09-03 |
# 大規模言語モデル推論における現代モデル圧縮
Contemporary Model Compression on Large Language Models Inference ( http://arxiv.org/abs/2409.01990v1 ) ライセンス: Link先を確認 | Dong Liu, | (参考訳) 大規模言語モデル(LLM)は、様々なタスクで最先端の結果を達成することによって、自然言語処理に革命をもたらした。
しかし、高いメモリ消費と遅い処理速度を含むLLM推論の計算要求は、特にリソース制約のあるデバイスにおいて、現実世界のアプリケーションに重大な課題をもたらす。
効率的な推論は、モバイルやエッジデバイスを含む幅広いプラットフォームにLLMをデプロイするために不可欠である。
本研究は,LLMのサイズと計算要求を低減し,それらの性能を維持しながら,これらの課題に対処するモデル圧縮の現代技術について検討する。
我々は、量子化、知識蒸留、プルーニングを含むモデルレベルの圧縮手法と、KVキャッシュの効率的な設計のようなシステムレベルの最適化に焦点を当てる。
それぞれの手法は、数値的精度の低下からモデル間の知識の伝達、ニューラルネットワークの構造的単純化に至るまで、LLMを最適化するためのユニークなアプローチを提供する。
さらに、LLM推論の効率をさらに高めるシステムレベルの設計における新たなトレンドについて論じる。
本調査は, モデル圧縮の最近の進歩と, LLMを多種多様なアプリケーションに対して, よりアクセスしやすく, 実用的なものにする可能性について概説することを目的としている。
Large Language Models (LLMs) have revolutionized natural language processing by achieving state-of-the-art results across a variety of tasks. However, the computational demands of LLM inference, including high memory consumption and slow processing speeds, pose significant challenges for real-world applications, particularly on resource-constrained devices. Efficient inference is crucial for scaling the deployment of LLMs to a broader range of platforms, including mobile and edge devices. This survey explores contemporary techniques in model compression that address these challenges by reducing the size and computational requirements of LLMs while maintaining their performance. We focus on model-level compression methods, including quantization, knowledge distillation, and pruning, as well as system-level optimizations like KV cache efficient design. Each of these methodologies offers a unique approach to optimizing LLMs, from reducing numerical precision to transferring knowledge between models and structurally simplifying neural networks. Additionally, we discuss emerging trends in system-level design that further enhance the efficiency of LLM inference. This survey aims to provide a comprehensive overview of current advancements in model compression and their potential to make LLMs more accessible and practical for diverse applications. | 翻訳日:2024-09-06 00:50:24 公開日:2024-09-03 |
# QueryCheetah: クエリベースのシステムに対する属性推論攻撃の高速発見
QueryCheetah: Fast Automated Discovery of Attribute Inference Attacks Against Query-Based Systems ( http://arxiv.org/abs/2409.01992v1 ) ライセンス: Link先を確認 | Bozhidar Stevanoski, Ana-Maria Cretu, Yves-Alexandre de Montjoye, | (参考訳) クエリベースのシステム(QBS)は、データを共有するための重要なアプローチの1つです。
QBSは、アナリストがプライベートな保護されたデータセットから集約された情報を要求できるようにする。
攻撃は、QBSが真のプライバシ保護であることを保証する重要な部分である。
しかし、攻撃の開発とテストは非常に労働集約的であり、システムの複雑さの増加に対処できない。
自動化されたアプローチは有望であることが示されているが、現時点では非常に計算集約的であり、実際に適用可能であることを制限している。
本稿では,QBSに対するプライバシー攻撃を自動的に検出する,高速かつ効果的な方法であるQueryCheetahを提案する。
属性推論攻撃でQueryCheetahをインスタンス化し、従来の手法よりも強力な攻撃を検知し、最先端の自動化アプローチよりも18倍高速であることを示す。
次に、QueryCheetahによってシステム開発者は、さまざまな攻撃的強度やターゲット個人を含む、プライバシーリスクを徹底的に評価できることを示す。
最終的に、QueryCheetahが、アドホックな防御に関するより大きな構文や回避策の攻撃を見つけるために、最初からどのように使えるかを示します。
Query-based systems (QBSs) are one of the key approaches for sharing data. QBSs allow analysts to request aggregate information from a private protected dataset. Attacks are a crucial part of ensuring QBSs are truly privacy-preserving. The development and testing of attacks is however very labor-intensive and unable to cope with the increasing complexity of systems. Automated approaches have been shown to be promising but are currently extremely computationally intensive, limiting their applicability in practice. We here propose QueryCheetah, a fast and effective method for automated discovery of privacy attacks against QBSs. We instantiate QueryCheetah on attribute inference attacks and show it to discover stronger attacks than previous methods while being 18 times faster than the state-of-the-art automated approach. We then show how QueryCheetah allows system developers to thoroughly evaluate the privacy risk, including for various attacker strengths and target individuals. We finally show how QueryCheetah can be used out-of-the-box to find attacks in larger syntaxes and workarounds around ad-hoc defenses. | 翻訳日:2024-09-06 00:50:24 公開日:2024-09-03 |
# BinPRE: バイナリ分析に基づくプロトコルリバースエンジニアリングにおけるフィールド推論の強化
BinPRE: Enhancing Field Inference in Binary Analysis Based Protocol Reverse Engineering ( http://arxiv.org/abs/2409.01994v1 ) ライセンス: Link先を確認 | Jiayi Jiang, Xiyuan Zhang, Chengcheng Wan, Haoyi Chen, Haiying Sun, Ting Su, | (参考訳) プロトコルリバースエンジニアリング(PRE)は、ソースコードが利用できないときにネットワークプロトコルの仕様を推測することを目的としている。
具体的には、フィールド推論は、フィールドフォーマットとセマンティクスを推論するPreの重要なステップである。
場推定を行うためには、二分解析に基づくプレテクニックが主要なアプローチカテゴリである。
しかし、このような手法は、(1)入力メッセージ処理のロジックが異なるプロトコルの実装によって異なる場合、フォーマット推論は脆弱であり、(2)セマンティック推論は不適切で不正確な推論規則によって制限される。
これらの課題に対処するために、バイナリ分析ベースのPrematorであるBinPREを紹介する。
BinPREは,(1)形式抽出のための命令ベースの意味的類似性分析戦略,(2)意味的推論精度を向上させるための原子意味的検出器で構成される新しいライブラリ,(3)意味的推論精度をさらに向上するクラスタ・アンド・リファイン・パラダイムを取り入れている。
我々は、Polyglot、AutoFormat、Tupni、BinaryInferno、DynPREを含む既存の5つのPreformツールに対してBinPREを評価した。
広く使われている8つのプロトコルの評価結果は、BinPREがフォーマットとセマンティック推論の両方で以前のPreツールより優れていることを示している。
BinPRE は形式抽出における 0.73 の完全性と型(関数)の意味推論における 0.74 (0.81) の F1 スコアをそれぞれ達成している。
BinPREのフィールド推論結果は,最も優れたPreツールと比較して,5~29%のブランチカバレッジを達成し,プロトコルファジリングの有効性の向上に寄与した。
BinPREはまた、新しいゼロデイ脆弱性の発見にも役立っている。
Protocol reverse engineering (PRE) aims to infer the specification of network protocols when the source code is not available. Specifically, field inference is one crucial step in PRE to infer the field formats and semantics. To perform field inference, binary analysis based PRE techniques are one major approach category. However, such techniques face two key challenges - (1) the format inference is fragile when the logics of processing input messages may vary among different protocol implementations, and (2) the semantic inference is limited by inadequate and inaccurate inference rules. To tackle these challenges, we present BinPRE, a binary analysis based PRE tool. BinPRE incorporates (1) an instruction-based semantic similarity analysis strategy for format extraction; (2) a novel library composed of atomic semantic detectors for improving semantic inference adequacy; and (3) a cluster-and-refine paradigm to further improve semantic inference accuracy. We have evaluated BinPRE against five existing PRE tools, including Polyglot, AutoFormat, Tupni, BinaryInferno and DynPRE. The evaluation results on eight widely-used protocols show that BinPRE outperforms the prior PRE tools in both format and semantic inference. BinPRE achieves the perfection of 0.73 on format extraction and the F1-score of 0.74 (0.81) on semantic inference of types (functions), respectively. The field inference results of BinPRE have helped improve the effectiveness of protocol fuzzing by achieving 5-29% higher branch coverage, compared to those of the best prior PRE tool. BinPRE has also helped discover one new zero-day vulnerability, which otherwise cannot be found. | 翻訳日:2024-09-06 00:50:24 公開日:2024-09-03 |
# vec2wav 2.0:離散トークンヴォコーダによる音声変換の改善
vec2wav 2.0: Advancing Voice Conversion via Discrete Token Vocoders ( http://arxiv.org/abs/2409.01995v1 ) ライセンス: Link先を確認 | Yiwei Guo, Zhihan Li, Junjie Li, Chenpeng Du, Hankun Wang, Shuai Wang, Xie Chen, Kai Yu, | (参考訳) 本稿では,音声変換(VC)を高速化する新しい音声離散トークンボコーダ vec2wav 2.0 を提案する。
我々は、音声の自己教師型モデルからの離散トークンをソース音声のコンテンツ特徴として使用し、VCをインシデントヴォコーディングタスクとして扱う。
コンテンツトークンにおける話者の音色喪失を修正するため、vec2wav 2.0はWavLM機能を利用して強い音色依存情報を提供する。
波形再構成プロセスに音色をよりよく組み込むために, 適応型スネーク活性化関数を提案する。
このようにして、vec2wav 2.0は、異なる参照プロンプトを与えられた話者の音色を適切に変更することを学ぶ。
また、vec2wav 2.0を効果的にトレーニングするためには、教師付きデータを必要としない。
実験の結果、vec2wav 2.0はあらゆるVCのオーディオ品質とスピーカーの類似性において、他のすべてのベースラインをかなり上回ります。
アブレーション研究は提案手法による効果を検証する。
さらに、vec2wav 2.0はモノリンガルコーパスのみをトレーニングしても、競争力のあるクロスランガルVCを実現する。
したがって、vec2wav 2.0は、音色を音声トークンボコーダでのみ操作できることを示し、VCのフロンティアと音声合成を推し進める。
We propose a new speech discrete token vocoder, vec2wav 2.0, which advances voice conversion (VC). We use discrete tokens from speech self-supervised models as the content features of source speech, and treat VC as a prompted vocoding task. To amend the loss of speaker timbre in the content tokens, vec2wav 2.0 utilizes the WavLM features to provide strong timbre-dependent information. A novel adaptive Snake activation function is proposed to better incorporate timbre into the waveform reconstruction process. In this way, vec2wav 2.0 learns to alter the speaker timbre appropriately given different reference prompts. Also, no supervised data is required for vec2wav 2.0 to be effectively trained. Experimental results demonstrate that vec2wav 2.0 outperforms all other baselines to a considerable margin in terms of audio quality and speaker similarity in any-to-any VC. Ablation studies verify the effects made by the proposed techniques. Moreover, vec2wav 2.0 achieves competitive cross-lingual VC even only trained on monolingual corpus. Thus, vec2wav 2.0 shows timbre can potentially be manipulated only by speech token vocoders, pushing the frontiers of VC and speech synthesis. | 翻訳日:2024-09-06 00:50:24 公開日:2024-09-03 |
# SA-MLP: MLPアーキテクチャにおける効率的な追加およびシフト操作によるポイントクラウド分類の強化
SA-MLP: Enhancing Point Cloud Classification with Efficient Addition and Shift Operations in MLP Architectures ( http://arxiv.org/abs/2409.01998v1 ) ライセンス: Link先を確認 | Qiang Zheng, Chao Zhang, Jian Sun, | (参考訳) 本研究は,最近のCNN最適化の進歩に触発された新しいMLPベースのアーキテクチャを導入することにより,ポイントクラウド分類における計算効率の低下に対処する。
従来のニューラルネットワークは計算コストのかかる乗算演算に大きく依存している。
そこで本研究では,乗算を加算演算とシフト演算に置き換えるAdd-MLPとShift-MLPを提案し,計算効率を大幅に向上させる。
この上に構築したSA-MLPは、交互に分散したシフト層と加算層を混合してMLP層を置き換えるハイブリッドモデルであり、シフト層重みを凍結することなく、元のレイヤ数を維持できる。
この設計は、従来の文献のShiftAddNetモデルとは対照的で、畳み込みレイヤをシフト層と加算層に置き換え、レイヤ数の倍増と、凍結したシフト重みによる表現能力の制限につながる。
さらに、SA-MLPは、加算層とシフト層に特化して学習率と最適化器を設定することで学習を最適化し、相補的な強みを完全に活用する。
大規模な実験では、Add-MLPとShift-MLPが競合性能を達成する一方で、SA-MLPは乗算ベースラインのMLPモデルを大きく上回り、最先端のMLPモデルに匹敵する性能を達成する。
この研究は、ポイントクラウド分類のための効率的かつ効果的なソリューションを提供し、性能と計算効率のバランスをとる。
This study addresses the computational inefficiencies in point cloud classification by introducing novel MLP-based architectures inspired by recent advances in CNN optimization. Traditional neural networks heavily rely on multiplication operations, which are computationally expensive. To tackle this, we propose Add-MLP and Shift-MLP, which replace multiplications with addition and shift operations, respectively, significantly enhancing computational efficiency. Building on this, we introduce SA-MLP, a hybrid model that intermixes alternately distributed shift and adder layers to replace MLP layers, maintaining the original number of layers without freezing shift layer weights. This design contrasts with the ShiftAddNet model from previous literature, which replaces convolutional layers with shift and adder layers, leading to a doubling of the number of layers and limited representational capacity due to frozen shift weights. Moreover, SA-MLP optimizes learning by setting distinct learning rates and optimizers specifically for the adder and shift layers, fully leveraging their complementary strengths. Extensive experiments demonstrate that while Add-MLP and Shift-MLP achieve competitive performance, SA-MLP significantly surpasses the multiplication-based baseline MLP model and achieves performance comparable to state-of-the-art MLP-based models. This study offers an efficient and effective solution for point cloud classification, balancing performance with computational efficiency. | 翻訳日:2024-09-06 00:37:19 公開日:2024-09-03 |
# 非エルミタン共振器アレイによる多モード光方向増幅器の非相互性
The Non-reciprocity of Multi-mode Optical Directional Amplifier Realized by Non-Hermitian Resonator Arrays ( http://arxiv.org/abs/2409.02000v1 ) ライセンス: Link先を確認 | Jin-Xiang Xue, Chuan-Xun Du, Chengchao Liu, Liu Yang, Yong-Long Wang, | (参考訳) 本稿では,非エルミート多モード共振器アレイを用いて,光信号のルーティング,ノイズの逆流防止,多周波多周波多周波非線形伝送を実現し,情報処理の強化を図る。
4モード共振器の線形アレイに非線形性を導入することにより、Scully-Lambモデルと飽和効果の両周波数非相互伝送を実現する。
例えば、方向性巡回増幅器は非相互単位で構成される。
潜在的な応用として、非相互性光学系は二重周波数制御、並列情報処理、フォトニック集積回路、光学デバイス等に利用できる。
In the present paper, a multi-frequency optical non-reciprocal transmission is first realized by using a non-Hermitian multi-mode resonator array.We find that the non-reciprocity can be used to route optical signals, to prevent the reverse flow of noise, and find that the multi-frequency can be used to enhance information processing. In terms of the Scully-Lamb model and gain saturation effect, we accomplish a dual-frequency non-reciprocal transmission by introducing nonlinearity into a linear array of four-mode resonators. For example, a directional cyclic amplifier is constructed with non-reciprocal units. As potential applications, the non-reciprocity optical systems can be employed in dual-frequency control, parallel information processing, photonic integrated circuits, optical devices and so on. | 翻訳日:2024-09-06 00:37:19 公開日:2024-09-03 |
# 複雑科学における倫理の必要性:なぜそれが重要か
The overlooked need for Ethics in Complexity Science: Why it matters ( http://arxiv.org/abs/2409.02002v1 ) ライセンス: Link先を確認 | Olumide Adisa, Enio Alterman Blay, Yasaman Asgari, Gabriele Di Bona, Samantha Dies, Ana Maria Jaramillo, Paulo H. Resende, Ana Maria de Sousa Leitao, | (参考訳) 複雑さ科学は、その幅広い範囲と潜在的な影響にもかかわらず、倫理的懸念に対処する人工知能、バイオテクノロジー、社会科学といった分野には及ばない。
この分野には包括的な倫理的枠組みがなく、私たちをコミュニティとして、倫理的課題やジレンマに弱いままにしておく。
他の領域でも同じような経験を積んで、ディスカッションやワーキンググループ、ガイド、ポリシー、レコメンデーションといった活動を行なっています。
そこで本稿では, 形式的ガイドラインの欠如, 専門倫理委員会, 複雑性科学コミュニティにおける倫理に関する広範な議論について紹介する。
先述した規律の洞察に基づいて、倫理的意識と行動を高めるためのロードマップを提案する。
推奨事項は
一 複雑なシステム研究に特有な倫理ガイドラインを策定するための支援機構を開始すること。
(二)オープンアクセス資源の作成、及び
三 複雑さ科学が社会的課題に責任を持って対処し、より包括的な環境を達成するために包括的対話を育むこと。
この対話を開始することで、倫理が複雑性研究にどのように統合されるかにおいて必要な変化を促すことを目指しており、現代的課題により効果的に対処するための分野を位置づけている。
Complexity science, despite its broad scope and potential impact, has not kept pace with fields like artificial intelligence, biotechnology and social sciences in addressing ethical concerns. The field lacks a comprehensive ethical framework, leaving us, as a community, vulnerable to ethical challenges and dilemmas. Other areas have gone through similar experiences and created, with discussions and working groups, their guides, policies and recommendations. Therefore, here we highlight the critical absence of formal guidelines, dedicated ethical committees, and widespread discussions on ethics within the complexity science community. Drawing on insights from the disciplines mentioned earlier, we propose a roadmap to enhance ethical awareness and action. Our recommendations include (i) initiating supportive mechanisms to develop ethical guidelines specific to complex systems research, (ii) creating open-access resources, and (iii) fostering inclusive dialogues to ensure that complexity science can responsibly tackle societal challenges and achieve a more inclusive environment. By initiating this dialogue, we aim to encourage a necessary shift in how ethics is integrated into complexity research, positioning the field to address contemporary challenges more effectively. | 翻訳日:2024-09-06 00:37:19 公開日:2024-09-03 |
# ゲート量子コンピュータのロバストフィッティング
Robust Fitting on a Gate Quantum Computer ( http://arxiv.org/abs/2409.02006v1 ) ライセンス: Link先を確認 | Frances Fengyi Yang, Michele Sasdelli, Tat-Jun Chin, | (参考訳) ゲート量子コンピュータは、多項式時間における素因数分解のようなある種の難しい問題を解く可能性から、大きな関心を集めている。
コンピュータビジョン研究者は長い間、量子コンピュータの力に惹かれてきた。
多くのコンピュータビジョンパイプラインにおいて基本的に重要であるロバストフィッティングは、最近量子コンピューティングをゲートするのに有効であることが示されている。
従来提案された解決策は、ベルンシュタイン・ヴァジラニ量子回路を用いたアウトライジングネスの尺度としてブールの影響を計算することである。
しかし、この方法は、証明されていない$\ell_\infty$実現可能性テストの量子的実装を仮定した。
本稿では,実ゲート量子コンピュータIonQ Ariaの量子ロバスト適合性を示す量子回路を提案する。
また,高次元非線形モデルに対するBooleanの影響を計算するために,1次元Booleanの影響を蓄積する方法を示し,実際のベンチマークデータセットで実験的に検証した。
Gate quantum computers generate significant interest due to their potential to solve certain difficult problems such as prime factorization in polynomial time. Computer vision researchers have long been attracted to the power of quantum computers. Robust fitting, which is fundamentally important to many computer vision pipelines, has recently been shown to be amenable to gate quantum computing. The previous proposed solution was to compute Boolean influence as a measure of outlyingness using the Bernstein-Vazirani quantum circuit. However, the method assumed a quantum implementation of an $\ell_\infty$ feasibility test, which has not been demonstrated. In this paper, we take a big stride towards quantum robust fitting: we propose a quantum circuit to solve the $\ell_\infty$ feasibility test in the 1D case, which allows to demonstrate for the first time quantum robust fitting on a real gate quantum computer, the IonQ Aria. We also show how 1D Boolean influences can be accumulated to compute Boolean influences for higher-dimensional non-linear models, which we experimentally validate on real benchmark datasets. | 翻訳日:2024-09-06 00:37:19 公開日:2024-09-03 |
# PMT-MAE: 効率的な点群分類のための蒸留による2分岐自己教師付き学習
PMT-MAE: Dual-Branch Self-Supervised Learning with Distillation for Efficient Point Cloud Classification ( http://arxiv.org/abs/2409.02007v1 ) ライセンス: Link先を確認 | Qiang Zheng, Chao Zhang, Jian Sun, | (参考訳) 自己教師型学習の進歩は、ポイントクラウド処理における特徴抽出と理解の強化に不可欠である。
本稿では,PMT-MAE(Point MLP-Transformer Masked Autoencoder)を紹介する。
PMT-MAEは、TransformerとMPPコンポーネントを統合し、リッチな機能をキャプチャするデュアルブランチアーキテクチャを備えている。
Transformerブランチは複雑な機能インタラクションにグローバルな自己アテンションを活用し、並列MLPブランチは共有された完全に接続されたレイヤを通じてトークンを処理し、補完的な機能変換パスを提供する。
融合機構はこれらの特徴を組み合わせることで、包括的な3D表現を学ぶためのモデルの能力を高める。
PMT-MAEは、高度な教師モデルであるPoint-M2AEによって指導され、事前訓練中の特徴蒸留と微調整時のロジット蒸留を含む蒸留戦略を採用し、効果的な知識伝達を保証する。
ModelNet40の分類タスクでは、投票戦略を使わずに93.6\%の精度を達成するため、PMT-MAEはベースラインのPoint-MAE (93.2\%) と教師のPoint-M2AE (93.4\%) を超越し、差別的な3Dポイントクラウド表現を学習する能力を示している。
さらに、このフレームワークは高い効率を示し、事前トレーニングと微調整の両方に40のエポックしか必要としない。
PMT-MAEの有効性と効率性は、計算資源が限られているシナリオに適しており、実用的なポイントクラウド分析のための有望なソリューションとして位置づけられている。
Advances in self-supervised learning are essential for enhancing feature extraction and understanding in point cloud processing. This paper introduces PMT-MAE (Point MLP-Transformer Masked Autoencoder), a novel self-supervised learning framework for point cloud classification. PMT-MAE features a dual-branch architecture that integrates Transformer and MLP components to capture rich features. The Transformer branch leverages global self-attention for intricate feature interactions, while the parallel MLP branch processes tokens through shared fully connected layers, offering a complementary feature transformation pathway. A fusion mechanism then combines these features, enhancing the model's capacity to learn comprehensive 3D representations. Guided by the sophisticated teacher model Point-M2AE, PMT-MAE employs a distillation strategy that includes feature distillation during pre-training and logit distillation during fine-tuning, ensuring effective knowledge transfer. On the ModelNet40 classification task, achieving an accuracy of 93.6\% without employing voting strategy, PMT-MAE surpasses the baseline Point-MAE (93.2\%) and the teacher Point-M2AE (93.4\%), underscoring its ability to learn discriminative 3D point cloud representations. Additionally, this framework demonstrates high efficiency, requiring only 40 epochs for both pre-training and fine-tuning. PMT-MAE's effectiveness and efficiency render it well-suited for scenarios with limited computational resources, positioning it as a promising solution for practical point cloud analysis. | 翻訳日:2024-09-06 00:37:19 公開日:2024-09-03 |
# Digital Twinが6Gのコンセプト、障害物、研究の展望を語る
When Digital Twin Meets 6G: Concepts, Obstacles, and Research Prospects ( http://arxiv.org/abs/2409.02008v1 ) ライセンス: Link先を確認 | Wenshuai Liu, Yaru Fu, Zheng Shi, Hong Wang, | (参考訳) デジタルツイン技術と新興6Gネットワークの融合は、課題と多くの研究機会の両方を提示する。
この記事では、デジタルツインと6Gのシナジーの可能性を探り、重要な課題を強調し、それらの統合のための基本原則を提案します。
持続的デプロイメント,リアルタイム同期,シームレスなマイグレーション,予測解析,クローズドループ制御など,6Gネットワークのコンテキストにおけるディジタルツインのユニークな要件と能力について論じる。
さらに,ネットワーク最適化,リソース割り当て,セキュリティ,インテリジェントサービス提供など,デジタルツインと人工知能を活用して6Gのさまざまな側面を強化する研究機会を明らかにした。
本稿では,デジタル双生児と6Gの交差点におけるさらなる研究とイノベーションの促進を目標とし,将来的なアプリケーションやサービスへの道を開くことを目的とする。
The convergence of digital twin technology and the emerging 6G network presents both challenges and numerous research opportunities. This article explores the potential synergies between digital twin and 6G, highlighting the key challenges and proposing fundamental principles for their integration. We discuss the unique requirements and capabilities of digital twin in the context of 6G networks, such as sustainable deployment, real-time synchronization, seamless migration, predictive analytic, and closed-loop control. Furthermore, we identify research opportunities for leveraging digital twin and artificial intelligence to enhance various aspects of 6G, including network optimization, resource allocation, security, and intelligent service provisioning. This article aims to stimulate further research and innovation at the intersection of digital twin and 6G, paving the way for transformative applications and services in the future. | 翻訳日:2024-09-06 00:37:19 公開日:2024-09-03 |
# 自動微分による逆磁気伝導設計
Inverse magneto-conductance design by automatic differentiation ( http://arxiv.org/abs/2409.02009v1 ) ライセンス: Link先を確認 | Yuta Hirasaki, Koji Inui, Eiji Saitoh, | (参考訳) 薄いワイヤの磁気伝導は、伝導電子の量子干渉による複雑なパターンを示すことが多い。
これらのパターンは欠陥や電位分布などのワイヤの微細構造を反映している。
本研究では,所望の磁気伝導パターンを示す顕微鏡構造を自動生成する逆設計法を提案する。
本稿では,ワイヤの欠陥位置を正確に生成し,様々な複雑なパターンに効果的に適用できることを数値的に示す。
また,実験研究を促進する構造設計手法についても論じる。
Magneto-conductance in thin wires often exhibits complicated patterns due to the quantum interference of conduction electrons. These patterns reflect microscopic structures in the wires, such as defects or potential distributions. In this study, we propose an inverse design method to automatically generate a microscopic structure that exhibits desired magneto-conductance patterns. We numerically demonstrate that our method accurately generates defect positions in wires and can be effectively applied to various complicated patterns. We also discuss techniques for designing structures that facilitate experimental investigation. | 翻訳日:2024-09-06 00:37:19 公開日:2024-09-03 |
# ハミルトニアンアウェア最適化を用いた3次木フェルミオン-量子マッピング
Ternary Tree Fermion-to-Qubit Mapping with Hamiltonian Aware Optimization ( http://arxiv.org/abs/2409.02010v1 ) ライセンス: Link先を確認 | Yuhao Liu, Kevin Yao, Jonathan Hong, Julien Froustey, Yunong Shi, Ermal Rrapaj, Costin Iancu, Gushu Li, | (参考訳) 本稿では、特定のフェルミオンハミルトニアンに対して最適化されたフェルミオン-量子マッピングをコンパイルするためのハミルトニアン・アウェア・ターナリーツリー(HATT)フレームワークを紹介する。
フェルミオン量子系のシミュレーションにおいて、効率的なフェルミオン-量子ビットマッピングはフェルミオン系を量子ビット系に変換する上で重要な役割を果たす。
HATTは3次木マッピングとボトムアップ構成法を用いて、ハミルトニアンが認識するフェルミオン-量子ビットマッピングを生成し、量子シミュレーション回路のオーバーヘッドを小さくする。
さらに、Fermion-to-qubit マッピングにおける重要な真空状態保存特性を保ち、アルゴリズムの複雑さを$O(N^4)$から$O(N^3)$に下げる。
様々なフェルミオン系の評価とシミュレーションは、パウリ重みと回路の複雑さを著しく低減し、より大きな系に優れたスケーラビリティを示す。
また、Ionq量子コンピュータの実験では、量子シミュレーションにおけるノイズ抵抗に対する我々のアプローチの利点も示している。
This paper introduces the Hamiltonian-Aware Ternary Tree (HATT) framework to compile optimized Fermion-to-qubit mapping for specific Fermionic Hamiltonians. In the simulation of Fermionic quantum systems, efficient Fermion-to-qubit mapping plays a critical role in transforming the Fermionic system into a qubit system. HATT utilizes ternary tree mapping and a bottom-up construction procedure to generate Hamiltonian aware Fermion-to-qubit mapping to reduce the Pauli weight of the qubit Hamiltonian, resulting in lower quantum simulation circuit overhead. Additionally, our optimizations retain the important vacuum state preservation property in our Fermion-to-qubit mapping and reduce the complexity of our algorithm from $O(N^4)$ to $O(N^3)$. Evaluations and simulations of various Fermionic systems demonstrate a significant reduction in both Pauli weight and circuit complexity, alongside excellent scalability to larger systems. Experiments on the Ionq quantum computer also show the advantages of our approach in noise resistance in quantum simulations. | 翻訳日:2024-09-06 00:37:19 公開日:2024-09-03 |
# パーキンソン震度客観的推定のための深層学習
Deep learning for objective estimation of Parkinsonian tremor severity ( http://arxiv.org/abs/2409.02011v1 ) ライセンス: Link先を確認 | Felipe Duque-Quiceno, Grzegorz Sarapata, Yuriy Dushin, Miles Allen, Jonathan O'Keeffe, | (参考訳) パーキンソン震の正確な評価は、疾患の進行をモニタリングし、治療効果を評価するのに不可欠である。
本稿では,従来のポーズ推定手法の限界を克服し,映像データからパーキンソン病(PD)の姿勢振れを解析するための画素ベースディープラーニングモデルを提案する。
2大陸にまたがる5つの運動障害センターから2,742件の評価をトレーニングし,臨床評価と頑健な一致を示した。
リボドーパと深部脳刺激(DBS)の治療効果を効果的に予測し、症状の左右非対称性を検出し、震度の違いを区別した。
特徴空間解析の結果, 震度分布の非直線的, 構造的分布が明らかになり, 特徴空間の大部分を占める低重度スコアが得られた。
また,本モデルでは,臨床現場における適応学習と品質管理の可能性も示唆した。
我々のアプローチは、ブレイディキネジアや歩行を含む他のMDS-UPDRSモータアセスメントと統合可能な、スケーラブルで客観的な震度評価法を提供する。
このシステムの適応性と性能は、PD症状の高周波で経時的なモニタリング、臨床の専門性を補完し、患者管理における意思決定の強化を約束している。
今後の研究は、このピクセルベースの方法論をPDの他の基本的な症状にまで拡張し、パーキンソン病の重症度自動評価のための包括的多症状モデルの開発を目指している。
Accurate assessment of Parkinsonian tremor is vital for monitoring disease progression and evaluating treatment efficacy. We introduce a pixel-based deep learning model designed to analyse postural tremor in Parkinson's disease (PD) from video data, overcoming the limitations of traditional pose estimation techniques. Trained on 2,742 assessments from five specialised movement disorder centres across two continents, the model demonstrated robust concordance with clinical evaluations. It effectively predicted treatment effects for levodopa and deep brain stimulation (DBS), detected lateral asymmetry of symptoms, and differentiated between different tremor severities. Feature space analysis revealed a non-linear, structured distribution of tremor severity, with low-severity scores occupying a larger portion of the feature space. The model also effectively identified outlier videos, suggesting its potential for adaptive learning and quality control in clinical settings. Our approach offers a scalable and objective method for tremor scoring, with potential integration into other MDS-UPDRS motor assessments, including bradykinesia and gait. The system's adaptability and performance underscore its promise for high-frequency, longitudinal monitoring of PD symptoms, complementing clinical expertise and enhancing decision-making in patient management. Future work will extend this pixel-based methodology to other cardinal symptoms of PD, aiming to develop a comprehensive, multi-symptom model for automated Parkinson's disease severity assessment. | 翻訳日:2024-09-06 00:37:19 公開日:2024-09-03 |
# 強度測定とポストセレクションを用いた光の量子状態工学
Quantum state engineering of light using intensity measurements and post-selection ( http://arxiv.org/abs/2409.02016v1 ) ライセンス: Link先を確認 | J. Rivera-Dean, Th. Lamprou, E. Pisanty, M. F. Ciappina, P. Tzallas, M. Lewenstein, P. Stammer, | (参考訳) 光の量子状態工学は、量子技術、特に古典的でない光の状態を生成することに非常に興味を持ち、しばしば量子条件付けによって研究される。
近年, 強度測定と古典的ポストセレクションを用いて, レーザー-原子相互作用にそのような手法を適用し, 光学的「キャット」状態を生成する方法が実証されている。
サンプルデータセットの後処理では、測定結果につながる光の古典的でない状態があるかのように、測定統計に対応する特定の事象を選択できる。
しかし, 量子状態工学におけるこの手法の可能性を十分に実現するためには, 関連する測定とポストセレクション方式の仕様について, 徹底的に検討することが重要である。
本研究では,高調波発生過程において,非線形現象を誘発するほど明るい光猫状態を生成するためのポストセレクション方式を最近開発した。
これらの知見は、量子光工学および非線形光学および量子情報科学への応用のための高品質で強力な光猫状態の生成に関する重要なガイダンスを提供する。
Quantum state engineering of light is of great interest for quantum technologies, particularly generating non-classical states of light, and is often studied through quantum conditioning approaches. Recently, we demonstrated that such approaches can be applied in intense laser-atom interactions to generate optical "cat" states by using intensity measurements and classical post-selection of the measurement data. Post-processing of the sampled data set allows to select specific events corresponding to measurement statistics as if there would be non-classical states of light leading to these measurement outcomes. However, to fully realize the potential of this method for quantum state engineering, it is crucial to thoroughly investigate the role of the involved measurements and the specifications of the post-selection scheme. We illustrate this by analyzing post-selection schemes recently developed for the process of high harmonic generation, which enables generating optical cat states bright enough to induce non-linear phenomena. These findings provide significant guidance for quantum light engineering and the generation of high-quality, intense optical cat states for applications in non-linear optics and quantum information science. | 翻訳日:2024-09-06 00:37:19 公開日:2024-09-03 |
# 高等教育におけるAIガバナンス:ビッグ10大学におけるガイダンスのケーススタディ
AI Governance in Higher Education: Case Studies of Guidance at Big Ten Universities ( http://arxiv.org/abs/2409.02017v1 ) ライセンス: Link先を確認 | Chuhao Wu, He Zhang, John M. Carroll, | (参考訳) ジェネレーティブAIは高等教育の利害関係者から大きな注目を集めている。
パーソナライズされた学習と学習支援のための新たな機会を導入し、同時に学術的完全性に挑戦し、倫理的問題につながる。
その結果、高等教育機関(HEI)における責任あるAI利用の管理がますます重要になっている。
先進的な大学はすでに、ジェネレーティブAIに関するガイドラインを公開しており、ほとんどの大学は、この技術を責任を持って受け入れようとしている。
この研究は、これらのガイドラインで示されているように、責任あるAIガバナンスのための戦略に焦点を当てることで、新たな視点を提供する。
米国14の高名な大学のケーススタディを通じて、AIのマルチユニットガバナンス、AIの役割固有のガバナンス、AIガイドラインからAIガバナンスの学術的特性を特定しました。
これらの戦略と特徴の強みと潜在的な限界について論じる。
この発見は、HEIs以降における責任あるAI使用を導くための実践的な意味を提供する。
Generative AI has drawn significant attention from stakeholders in higher education. As it introduces new opportunities for personalized learning and tutoring support, it simultaneously poses challenges to academic integrity and leads to ethical issues. Consequently, governing responsible AI usage within higher education institutions (HEIs) becomes increasingly important. Leading universities have already published guidelines on Generative AI, with most attempting to embrace this technology responsibly. This study provides a new perspective by focusing on strategies for responsible AI governance as demonstrated in these guidelines. Through a case study of 14 prestigious universities in the United States, we identified the multi-unit governance of AI, the role-specific governance of AI, and the academic characteristics of AI governance from their AI guidelines. The strengths and potential limitations of these strategies and characteristics are discussed. The findings offer practical implications for guiding responsible AI usage in HEIs and beyond. | 翻訳日:2024-09-06 00:37:19 公開日:2024-09-03 |
# TransDAE:効率的な医用画像分割のための階層型変換器における二重注意機構
TransDAE: Dual Attention Mechanism in a Hierarchical Transformer for Efficient Medical Image Segmentation ( http://arxiv.org/abs/2409.02018v1 ) ライセンス: Link先を確認 | Bobby Azad, Pourya Adibfar, Kaiqun Fu, | (参考訳) 医療分野では、画像分割は正確な疾患診断と効果的な治療戦略の開発に不可欠である。
早期発見は疾患の管理に大いに役立ち、進行を阻害する可能性がある。
機械学習、特に深層畳み込みニューラルネットワークは、セグメンテーションの課題に対処するための有望なアプローチとして登場した。
U-Netのような従来の方法では、局所表現モデリングやデコードブロックにエンコードブロックを使用して意味関係を明らかにする。
しかし、これらのモデルは、テクスチャや形状の著しい変化を示すマルチスケールオブジェクトとしばしば苦労し、入力データにおける長距離依存を捉えるのに失敗する。
シーケンス・ツー・シーケンスの予測のために設計されたトランスフォーマーは,グローバルな自己認識機構を利用した代替手段として提案されている。
しかし、詳細な詳細が不十分なため、正確なローカライゼーションを欠くこともある。
これらの制約を克服するため,TransDAEは,空間的およびチャネル的関連性の両方を特徴空間全体に含めながら,計算効率を保ちながら自己認識機構を再定義する手法である。
さらに、TransDAEは、スケール間相互作用モジュールによるスキップ接続経路を強化し、機能の再利用を促進し、ローカライズ精度を向上させる。
注目すべきなのは、TransDAEは、事前トレーニングされた重量に依存しなくても、Synapsのマルチオーガナイズデータセット上で既存の最先端のメソッドより優れていることだ。
In healthcare, medical image segmentation is crucial for accurate disease diagnosis and the development of effective treatment strategies. Early detection can significantly aid in managing diseases and potentially prevent their progression. Machine learning, particularly deep convolutional neural networks, has emerged as a promising approach to addressing segmentation challenges. Traditional methods like U-Net use encoding blocks for local representation modeling and decoding blocks to uncover semantic relationships. However, these models often struggle with multi-scale objects exhibiting significant variations in texture and shape, and they frequently fail to capture long-range dependencies in the input data. Transformers designed for sequence-to-sequence predictions have been proposed as alternatives, utilizing global self-attention mechanisms. Yet, they can sometimes lack precise localization due to insufficient granular details. To overcome these limitations, we introduce TransDAE: a novel approach that reimagines the self-attention mechanism to include both spatial and channel-wise associations across the entire feature space, while maintaining computational efficiency. Additionally, TransDAE enhances the skip connection pathway with an inter-scale interaction module, promoting feature reuse and improving localization accuracy. Remarkably, TransDAE outperforms existing state-of-the-art methods on the Synaps multi-organ dataset, even without relying on pre-trained weights. | 翻訳日:2024-09-06 00:37:19 公開日:2024-09-03 |
# オフライン蒸留フレームワークと負重自己蒸留技術による効率的な点雲分類
Efficient Point Cloud Classification via Offline Distillation Framework and Negative-Weight Self-Distillation Technique ( http://arxiv.org/abs/2409.02020v1 ) ライセンス: Link先を確認 | Qiang Zheng, Chao Zhang, Jian Sun, | (参考訳) ポイントクラウド処理技術の急速な進歩により、高精度な分類を実現するための効率的でコンパクトなモデルの需要が大幅に増加した。
知識蒸留は強力なモデル圧縮技術として登場した。
しかし、従来のKDは、大規模な教師モデルの前方推定に広範な計算資源を必要とすることが多く、それによって学生モデルの訓練効率が低下し、リソース需要が増大する。
これらの課題に対処するため,教師モデルと学生モデルの両方の同時ロードを回避し,ハードウェア要求の低減を図る,革新的なオフライン記録戦略を導入する。
このアプローチは教師モデルに多数の追加サンプルを投入し、データ拡張パラメータと対応するロジット出力の両方を記録する。
ランダムなスケーリングや翻訳のような形状レベルの拡張操作を適用することで、ランダムなジッタリングのようなポイントレベルの操作を除外しながら、レコードのサイズを大幅に削減する。
さらに,教師モデルのアウトプットを過度に模倣し,最適でない解に収束する小学生モデルの問題を緩和するため,負の重み付き自己蒸留戦略を取り入れた。
実験結果から, 提案した蒸留方式により, 低パラメータ数を維持しつつ, 最先端モデルに匹敵する性能が得られることが示された。
このアプローチは、パフォーマンスと複雑性の最適なバランスをとっています。
本研究は,特に資源制約環境におけるポイントクラウド分類タスクに対する知識蒸留の最適化の可能性を強調し,効率的なポイントクラウド解析のための新しいソリューションを提供する。
The rapid advancement in point cloud processing technologies has significantly increased the demand for efficient and compact models that achieve high-accuracy classification. Knowledge distillation has emerged as a potent model compression technique. However, traditional KD often requires extensive computational resources for forward inference of large teacher models, thereby reducing training efficiency for student models and increasing resource demands. To address these challenges, we introduce an innovative offline recording strategy that avoids the simultaneous loading of both teacher and student models, thereby reducing hardware demands. This approach feeds a multitude of augmented samples into the teacher model, recording both the data augmentation parameters and the corresponding logit outputs. By applying shape-level augmentation operations such as random scaling and translation, while excluding point-level operations like random jittering, the size of the records is significantly reduced. Additionally, to mitigate the issue of small student model over-imitating the teacher model's outputs and converging to suboptimal solutions, we incorporate a negative-weight self-distillation strategy. Experimental results demonstrate that the proposed distillation strategy enables the student model to achieve performance comparable to state-of-the-art models while maintaining lower parameter count. This approach strikes an optimal balance between performance and complexity. This study highlights the potential of our method to optimize knowledge distillation for point cloud classification tasks, particularly in resource-constrained environments, providing a novel solution for efficient point cloud analysis. | 翻訳日:2024-09-06 00:37:19 公開日:2024-09-03 |
# 大規模言語モデル圧縮の基礎 -その1:重み量子化
Foundations of Large Language Model Compression -- Part 1: Weight Quantization ( http://arxiv.org/abs/2409.02026v1 ) ライセンス: Link先を確認 | Sean I. Young, | (参考訳) 近年,大規模言語モデル (LLM) の圧縮は,資源制約のあるデバイスへの言語モデルの展開,計算コストの削減,大規模AIインフラストラクチャの環境フットプリントの軽減など,重要な問題として浮上している。
本稿では,LLM量子化の基礎を凸最適化の観点から提示し,これらの基礎の上に構築され,従来の手法よりも優れた量子化法を提案する。
我々の量子化フレームワークCVXQは、数十億の重みパラメータを含むモデルにスケールし、任意の特定のモデルサイズにモデルを圧縮する柔軟性を提供する。
CVXQのリファレンス実装はhttps://github.com/seannz/cvxqから入手できる。
In recent years, compression of large language models (LLMs) has emerged as an important problem to allow language model deployment on resource-constrained devices, reduce computational costs, and mitigate the environmental footprint of large-scale AI infrastructure. In this paper, we present the foundations of LLM quantization from a convex optimization perspective and propose a quantization method that builds on these foundations and outperforms previous methods. Our quantization framework, CVXQ, scales to models containing hundreds of billions of weight parameters and provides users with the flexibility to compress models to any specified model size, post-training. A reference implementation of CVXQ can be obtained from https://github.com/seannz/cvxq. | 翻訳日:2024-09-06 00:37:19 公開日:2024-09-03 |
# 超不変テンソルネットワークからのバルク境界対応
Bulk-boundary correspondence from hyper-invariant tensor networks ( http://arxiv.org/abs/2409.02029v1 ) ライセンス: Link先を確認 | Rafał Bistroń, Mykhailo Hontarenko, Karol Życzkowski, | (参考訳) マルチスケールエンタングルメント再正規化アンサッツ(MERA)と同様,AdS/CFT対応を忠実にシミュレートするために設計された超不変テンソルネットワークを導入する。
提案手法はネットワークアーキテクチャにバルクインデックスを統合して,相補的リカバリを含むHaPPYコードの主要な特徴を裏付けるものである。
この超不変フレームワークは、任意のバルク作用素の像を考慮して境界共形場理論(CFT)の2点と3点の相関関数を正確に再現する。
さらに,相関関数を効率的に計算するための明確な方法論を提案する。
本研究は,テンソルネットワークモデルにおけるバルクと境界の関係の物理的側面を強調し,量子情報におけるホログラフィック原理の理解とシミュレーションに寄与する。
We introduce a hyper-invariant tensor network designed to faithfully simulate the AdS/CFT correspondence, akin to the multi-scale entanglement renormalization ansatz (MERA). The proposed construction integrates bulk indices within the network architecture to uphold the key features of the HaPPY code, including complementary recovery. This hyper-invariant framework accurately reproduces the boundary conformal field theory's (CFT) two- and three-point correlation functions, while considering the image of any bulk operator. Furthermore, we provide an explicit methodology for calculating the correlation functions in an efficient manner. Our findings highlight the physical aspects of the relation between bulk and boundary within the tensor network models, contributing to the understanding and simulation of holographic principles in quantum information. | 翻訳日:2024-09-06 00:37:19 公開日:2024-09-03 |
# 草地計画のための視覚的関係推論の現代的考察
A Modern Take on Visual Relationship Reasoning for Grasp Planning ( http://arxiv.org/abs/2409.02035v1 ) ライセンス: Link先を確認 | Paolo Rabino, Tatiana Tommasi, | (参考訳) 現実世界の散らかったシーンとの相互作用は、観測対象間の複雑な空間的依存関係を理解し、最適なピックシーケンスや効率的なオブジェクト検索戦略を決定するロボットエージェントにいくつかの課題をもたらす。
既存のソリューションは通常、単純化されたシナリオを管理し、初期オブジェクト検出フェーズに従ってペアワイズオブジェクトの関係を予測することに重点を置いている。
本稿では,視覚的リレーショナル推論の現代的考察を,計画の把握のために提示する。
D3GDは、97の異なるカテゴリから最大35のオブジェクトを持つビンピックシーンを含む、新しいテストベッドである。
さらに、オブジェクトを同時に検出し、それらの空間関係を表す隣接行列を生成する、新しいエンドツーエンドトランスフォーマーベースの依存性グラフ生成モデルD3Gを提案する。
標準メトリクスの限界を認識して、モデル性能を評価するために、Average Precision of Relationshipsを初めて使用し、広範な実験ベンチマークを実施します。
得られた結果は,この課題の新たな最先端技術として我々のアプローチを確立し,今後のロボット操作研究の基礎を築いた。
コードとデータセットはhttps://paolotron.github.io/d3g.github.ioで公開しています。
Interacting with real-world cluttered scenes pose several challenges to robotic agents that need to understand complex spatial dependencies among the observed objects to determine optimal pick sequences or efficient object retrieval strategies. Existing solutions typically manage simplified scenarios and focus on predicting pairwise object relationships following an initial object detection phase, but often overlook the global context or struggle with handling redundant and missing object relations. In this work, we present a modern take on visual relational reasoning for grasp planning. We introduce D3GD, a novel testbed that includes bin picking scenes with up to 35 objects from 97 distinct categories. Additionally, we propose D3G, a new end-to-end transformer-based dependency graph generation model that simultaneously detects objects and produces an adjacency matrix representing their spatial relationships. Recognizing the limitations of standard metrics, we employ the Average Precision of Relationships for the first time to evaluate model performance, conducting an extensive experimental benchmark. The obtained results establish our approach as the new state-of-the-art for this task, laying the foundation for future research in robotic manipulation. We publicly release the code and dataset at https://paolotron.github.io/d3g.github.io. | 翻訳日:2024-09-06 00:21:46 公開日:2024-09-03 |
# BEAVER: テキストからSQLへのエンタープライズベンチマーク
BEAVER: An Enterprise Benchmark for Text-to-SQL ( http://arxiv.org/abs/2409.02038v1 ) ライセンス: Link先を確認 | Peter Baile Chen, Fabian Wenz, Yi Zhang, Moe Kayali, Nesime Tatbul, Michael Cafarella, Çağatay Demiralp, Michael Stonebraker, | (参考訳) 既存のテキスト-SQLベンチマークは、質問とSQLステートメントのペアを含む人間が生成したテストを使用して、Webから利用可能なテーブルを使用して構築されている。
彼らは通常、非常に良い結果を示し、LLMがテキストからSQLタスクに効果的であると考えるように導きます。
本稿では,企業データウェアハウスデータを含むベンチマークに対して,既製のLCMを適用する。
この環境では、標準のプロンプト技術やRAG技術を用いても、LLMは性能が良くない。
1 パブリック LLM は、主に "ダークウェブ" にあるため、エンタープライズデータウェアハウスでトレーニングできないこと、2 エンタープライズテーブルのスキーマは、公開データのスキーマよりも複雑であり、SQL 生成タスクを本質的に困難にしていること、3 ビジネス指向の質問は、多くの場合、より複雑で、複数のテーブルとアグリゲーションを結合する必要がある。
その結果,実際のユーザ履歴から収集した自然言語クエリとそれらの正しいSQLステートメントとともに,実際のエンタープライズデータウェアハウスから得られた新たなデータセットBEAVERを提案する。
我々は,このデータセットを最近のLLMを用いて評価し,その性能を実証した。
このデータセットは、将来の研究者がより高度なテキストからSQLシステムを構築するのに役立つことを期待しています。
Existing text-to-SQL benchmarks have largely been constructed using publicly available tables from the web with human-generated tests containing question and SQL statement pairs. They typically show very good results and lead people to think that LLMs are effective at text-to-SQL tasks. In this paper, we apply off-the-shelf LLMs to a benchmark containing enterprise data warehouse data. In this environment, LLMs perform poorly, even when standard prompt engineering and RAG techniques are utilized. As we will show, the reasons for poor performance are largely due to three characteristics: (1) public LLMs cannot train on enterprise data warehouses because they are largely in the "dark web", (2) schemas of enterprise tables are more complex than the schemas in public data, which leads the SQL-generation task innately harder, and (3) business-oriented questions are often more complex, requiring joins over multiple tables and aggregations. As a result, we propose a new dataset BEAVER, sourced from real enterprise data warehouses together with natural language queries and their correct SQL statements which we collected from actual user history. We evaluated this dataset using recent LLMs and demonstrated their poor performance on this task. We hope this dataset will facilitate future researchers building more sophisticated text-to-SQL systems which can do better on this important class of data. | 翻訳日:2024-09-06 00:21:46 公開日:2024-09-03 |
# FedMinds:プライバシ保護によるパーソナライズされた脳のビジュアルデコーディング
FedMinds: Privacy-Preserving Personalized Brain Visual Decoding ( http://arxiv.org/abs/2409.02044v1 ) ライセンス: Link先を確認 | Guangyin Bao, Duoqian Miao, | (参考訳) 人間の脳の謎を探求することは神経科学における長期的な研究課題である。
ディープラーニングの助けを借りて、人間の脳活動から視覚情報をデコードするfMRIは、有望なパフォーマンスを達成した。
しかしながら、これらの復号化モデルは、トレーニングを行うためにfMRIデータの集中ストレージを必要とするため、潜在的なプライバシセキュリティの問題が発生する可能性がある。
本稿では,多次元脳視覚復号法におけるプライバシ保護に着目した。
この目的のために,FedMindsという新しいフレームワークを導入する。フェデレーション学習を利用して,モデルのトレーニング中に個人のプライバシを保護する。
さらに、各対象に対して個別のアダプタを配置し、パーソナライズされた視覚的デコードを可能にする。
提案フレームワークの性能を評価するため,信頼性の高いNSDデータセットの実験を行った。
その結果,我々のフレームワークは,プライバシ保護とともに高精度な視覚復号化を実現していることがわかった。
Exploring the mysteries of the human brain is a long-term research topic in neuroscience. With the help of deep learning, decoding visual information from human brain activity fMRI has achieved promising performance. However, these decoding models require centralized storage of fMRI data to conduct training, leading to potential privacy security issues. In this paper, we focus on privacy preservation in multi-individual brain visual decoding. To this end, we introduce a novel framework called FedMinds, which utilizes federated learning to protect individuals' privacy during model training. In addition, we deploy individual adapters for each subject, thus allowing personalized visual decoding. We conduct experiments on the authoritative NSD datasets to evaluate the performance of the proposed framework. The results demonstrate that our framework achieves high-precision visual decoding along with privacy protection. | 翻訳日:2024-09-06 00:21:46 公開日:2024-09-03 |
# AllWeatherNet:悪天候と低照度環境下での自動運転のための統合画像強調
AllWeatherNet:Unified Image enhancement for autonomous driving under adverse weather and lowlight-conditions ( http://arxiv.org/abs/2409.02045v1 ) ライセンス: Link先を確認 | Chenghao Qian, Mahdi Rezaei, Saeed Anwar, Wenjing Li, Tanveer Hussain, Mohsen Azarmi, Wei Wang, | (参考訳) 雪、雨、夜間、霧などの逆条件は、自律運転認識システムに課題をもたらす。
既存の方法は、セマンティックセグメンテーションのような重要なコンピュータビジョンタスクの改善に限定的な効果があり、雨の除去や夜間の画像を昼間のものに翻訳するといった特定の条件のみに焦点を当てることが多い。
これらの制約に対処するために、このような悪条件により劣化した視覚的品質と明度を改善する方法を提案する。
我々の手法であるAllWeather-Netは、新しい階層型アーキテクチャを用いて、すべての悪条件をまたいで画像を強化する。
このアーキテクチャは、各レベルでパッチを識別することで、シーン、オブジェクト、テクスチャの3つの意味レベルに情報を組み込む。
さらに、自律運転認識に不可欠な道路要素への学習を指導するSIAM(Scaled Illumination-Aware Attention Mechanism)を導入する。
SIAMは強靭性を示し、気象条件や環境条件の変化の影響を受けないままである。
AllWeather-Netは、画像を通常の天気や昼間のシーンに効果的に変換し、優れた画像強調結果を示し、その後、訓練領域におけるmIoUの最大5.3%の改善とともにセマンティックセグメンテーションの性能を向上させる。
また、再学習することなく、最大3.9%のmIoU改善を達成し、未確認領域に適用することで、モデルの一般化能力を示す。
コードは、https://github.com/Jumponthemoon/AllWeatherNet.comでアクセスすることができる。
Adverse conditions like snow, rain, nighttime, and fog, pose challenges for autonomous driving perception systems. Existing methods have limited effectiveness in improving essential computer vision tasks, such as semantic segmentation, and often focus on only one specific condition, such as removing rain or translating nighttime images into daytime ones. To address these limitations, we propose a method to improve the visual quality and clarity degraded by such adverse conditions. Our method, AllWeather-Net, utilizes a novel hierarchical architecture to enhance images across all adverse conditions. This architecture incorporates information at three semantic levels: scene, object, and texture, by discriminating patches at each level. Furthermore, we introduce a Scaled Illumination-aware Attention Mechanism (SIAM) that guides the learning towards road elements critical for autonomous driving perception. SIAM exhibits robustness, remaining unaffected by changes in weather conditions or environmental scenes. AllWeather-Net effectively transforms images into normal weather and daytime scenes, demonstrating superior image enhancement results and subsequently enhancing the performance of semantic segmentation, with up to a 5.3% improvement in mIoU in the trained domain. We also show our model's generalization ability by applying it to unseen domains without re-training, achieving up to 3.9% mIoU improvement. Code can be accessed at: https://github.com/Jumponthemoon/AllWeatherNet. | 翻訳日:2024-09-06 00:21:46 公開日:2024-09-03 |
# 子宮内膜症診断のためのヒト-AI協調マルチモーダルマルチレイタラーニング
Human-AI Collaborative Multi-modal Multi-rater Learning for Endometriosis Diagnosis ( http://arxiv.org/abs/2409.02046v1 ) ライセンス: Link先を確認 | Hu Wang, David Butler, Yuan Zhang, Jodie Avery, Steven Knox, Congbo Ma, Louise Hull, Gustavo Carneiro, | (参考訳) 子宮内膜症は、出生時に女性に割り当てられた患者の約10%に影響を及ぼし、診断と管理が困難である。
診断は通常、腹腔鏡下手術またはT1/T2MRI画像の解析を用いて、疾患の様々な徴候を同定する。
子宮内膜症の診断上の重要な兆候は、ダグラスのポーチ(POD)の消滅である。
しかし、経験豊富な臨床医でさえ、信頼性の高いAIモデルのトレーニングを複雑にするMRI画像からPODを正確に分類することに苦労している。
本稿では, 上記の課題に対処するために, \underline{H}uman-\underline{AI} \underline{Co}llaborative \underline{M}ulti-modal \underline{M}ulti-rater Learning (HAICOMM)手法を提案する。
HAICOMMは、この問題の3つの重要な側面を探求する最初の方法である。
1) トレーニングサンプル毎に利用可能な複数の`noisy'ラベルから、よりクリーンなラベルを抽出するマルチラター学習
2)T1/T2MRI画像のトレーニング・テストへの活用のためのマルチモーダル学習
3) 臨床医とAIモデルからの予測を活用して、スタンドアロンの臨床医やAIモデルよりも正確な分類を提供するシステムを構築する。
提案手法を検証するために収集したマルチレータT1/T2MRI子宮内膜症データセットの結果から,提案したHAICOMMモデルは,臨床医,ノイズラベル学習モデル,マルチレータ学習手法のアンサンブルよりも優れていた。
Endometriosis, affecting about 10\% of individuals assigned female at birth, is challenging to diagnose and manage. Diagnosis typically involves the identification of various signs of the disease using either laparoscopic surgery or the analysis of T1/T2 MRI images, with the latter being quicker and cheaper but less accurate. A key diagnostic sign of endometriosis is the obliteration of the Pouch of Douglas (POD). However, even experienced clinicians struggle with accurately classifying POD obliteration from MRI images, which complicates the training of reliable AI models. In this paper, we introduce the \underline{H}uman-\underline{AI} \underline{Co}llaborative \underline{M}ulti-modal \underline{M}ulti-rater Learning (HAICOMM) methodology to address the challenge above. HAICOMM is the first method that explores three important aspects of this problem: 1) multi-rater learning to extract a cleaner label from the multiple ``noisy'' labels available per training sample; 2) multi-modal learning to leverage the presence of T1/T2 MRI images for training and testing; and 3) human-AI collaboration to build a system that leverages the predictions from clinicians and the AI model to provide more accurate classification than standalone clinicians and AI models. Presenting results on the multi-rater T1/T2 MRI endometriosis dataset that we collected to validate our methodology, the proposed HAICOMM model outperforms an ensemble of clinicians, noisy-label learning models, and multi-rater learning methods. | 翻訳日:2024-09-06 00:21:46 公開日:2024-09-03 |
# ViewCrafter: 高忠実な新規ビュー合成のためのビデオ拡散モデルの作成
ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis ( http://arxiv.org/abs/2409.02048v1 ) ライセンス: Link先を確認 | Wangbo Yu, Jinbo Xing, Li Yuan, Wenbo Hu, Xiaoyu Li, Zhipeng Huang, Xiangjun Gao, Tien-Tsin Wong, Ying Shan, Yonghong Tian, | (参考訳) ニューラル3D再構成の最近の進歩にもかかわらず、密集したマルチビューキャプチャへの依存は、より広範な適用性を制限している。
本研究では,映像拡散モデルに先行する単一又はスパース画像から,汎用シーンの高忠実な新規ビューを合成する新しい手法である「textbf{ViewCrafter}」を提案する。
提案手法は,映像拡散モデルの強力な生成能力と,ポイントベース表現によって提供される粗い3D手がかりを利用して,高精度なカメラポーズ制御による高品質な映像フレームを生成する。
新たなビューの生成範囲をさらに拡大するため,カメラ軌道計画アルゴリズムとともに反復的なビュー合成戦略を調整し,新しいビューでカバーされる3Dの手がかりと領域を段階的に拡張した。
ViewCrafterを使えば、再構成された3Dポイントと生成された新しいビューを用いて3D-GS表現を効率よく最適化し、より想像力のあるコンテンツ作成のためのシーンレベルのテキスト・ツー・3D生成を実現できる。
多様なデータセットに対する大規模な実験は、高忠実で一貫した新奇な視点を合成する上で、我々の手法の強力な一般化能力と優れた性能を示す。
Despite recent advancements in neural 3D reconstruction, the dependence on dense multi-view captures restricts their broader applicability. In this work, we propose \textbf{ViewCrafter}, a novel method for synthesizing high-fidelity novel views of generic scenes from single or sparse images with the prior of video diffusion model. Our method takes advantage of the powerful generation capabilities of video diffusion model and the coarse 3D clues offered by point-based representation to generate high-quality video frames with precise camera pose control. To further enlarge the generation range of novel views, we tailored an iterative view synthesis strategy together with a camera trajectory planning algorithm to progressively extend the 3D clues and the areas covered by the novel views. With ViewCrafter, we can facilitate various applications, such as immersive experiences with real-time rendering by efficiently optimizing a 3D-GS representation using the reconstructed 3D points and the generated novel views, and scene-level text-to-3D generation for more imaginative content creation. Extensive experiments on diverse datasets demonstrate the strong generalization capability and superior performance of our method in synthesizing high-fidelity and consistent novel views. | 翻訳日:2024-09-06 00:21:46 公開日:2024-09-03 |
# 適応型インスタンス相関蒸留による低分解能顔認識
Low-Resolution Face Recognition via Adaptable Instance-Relation Distillation ( http://arxiv.org/abs/2409.02049v1 ) ライセンス: Link先を確認 | Ruixin Shi, Weijia Guo, Shiming Ge, | (参考訳) 低解像度の顔認識は、情報的詳細が欠落しているため、難しい課題である。
知識蒸留に基づく最近のアプローチは、高解像度の手がかりが適切な知識伝達を通して、低解像度の顔認識を導出できることを証明している。
しかしながら、トレーニングとテストの面の分布の違いにより、学習されたモデルは適応性の低下に悩まされることが多い。
そこで我々は,知識伝達過程を蒸留・適応段階に分割し,低分解能顔認識を容易にするための適応可能なインスタンス関連蒸留手法を提案する。
提案手法では,高分解能教師からの知識をインスタンスレベルと関係レベルの両方で抽出し,クロスレゾリューションな知識伝達を実現する。
そして、学習した学生は、推論において適応的なバッチ正規化を伴う低解像度の顔を認識するように適応することができる。
このように、慣れ親しんだ低解像度の顔の欠損した詳細を回復する能力は効果的に向上し、より良い知識伝達につながる。
低解像度顔認証に関する広範囲な実験は、我々のアプローチの有効性と適応性を明確に示している。
Low-resolution face recognition is a challenging task due to the missing of informative details. Recent approaches based on knowledge distillation have proven that high-resolution clues can well guide low-resolution face recognition via proper knowledge transfer. However, due to the distribution difference between training and testing faces, the learned models often suffer from poor adaptability. To address that, we split the knowledge transfer process into distillation and adaptation steps, and propose an adaptable instance-relation distillation approach to facilitate low-resolution face recognition. In the approach, the student distills knowledge from high-resolution teacher in both instance level and relation level, providing sufficient cross-resolution knowledge transfer. Then, the learned student can be adaptable to recognize low-resolution faces with adaptive batch normalization in inference. In this manner, the capability of recovering missing details of familiar low-resolution faces can be effectively enhanced, leading to a better knowledge transfer. Extensive experiments on low-resolution face recognition clearly demonstrate the effectiveness and adaptability of our approach. | 翻訳日:2024-09-06 00:21:46 公開日:2024-09-03 |
# LIDに基づくエキスパートモデルの協調混合によるコードスイッチング音声認識の実現
Enhancing Code-Switching Speech Recognition with LID-Based Collaborative Mixture of Experts Model ( http://arxiv.org/abs/2409.02050v1 ) ライセンス: Link先を確認 | Hukai Huang, Jiayan Lin, Kaidi Wang, Yishuang Li, Wenhao Guan, Qingyang Hong, Lin Li, | (参考訳) 異なる言語にまたがる音韻類似性をモデル化することの難しさから、コードスイッチング音声認識は深刻な課題となる。
本研究では,専門家グループ間の協調的なメカニズムを活用するMixture of Experts(MoE)モデルであるCollaborative-MoEを提案する。
当初、先行するルーティングネットワークは言語識別(LID)タスクを明示的に学習し、取得したLID重みに基づいて専門家を選択する。
このプロセスは、専門家のネットワークパラメータの更新において、多様な言語ドメインからの干渉を軽減し、MoE層への堅牢なルーティング情報を保証する。
LIDウェイトはグループ間コラボレーションを促進するためにも使われており、言語固有の表現の統合を可能にしている。
さらに、各言語専門家グループ内では、ゲーティングネットワークは教師なしで、言語以外の属性に関するコラボレーションを促進する。
大規模な実験により,本手法の有効性を実証し,代替手法と比較して大幅な性能向上を実現した。
重要なこととして,本手法は,追加の事前学習を必要とせず,MoEモデルの効率的な推論能力を保っている。
Due to the inherent difficulty in modeling phonetic similarities across different languages, code-switching speech recognition presents a formidable challenge. This study proposes a Collaborative-MoE, a Mixture of Experts (MoE) model that leverages a collaborative mechanism among expert groups. Initially, a preceding routing network explicitly learns Language Identification (LID) tasks and selects experts based on acquired LID weights. This process ensures robust routing information to the MoE layer, mitigating interference from diverse language domains on expert network parameter updates. The LID weights are also employed to facilitate inter-group collaboration, enabling the integration of language-specific representations. Furthermore, within each language expert group, a gating network operates unsupervised to foster collaboration on attributes beyond language. Extensive experiments demonstrate the efficacy of our approach, achieving significant performance enhancements compared to alternative methods. Importantly, our method preserves the efficient inference capabilities characteristic of MoE models without necessitating additional pre-training. | 翻訳日:2024-09-06 00:21:46 公開日:2024-09-03 |
# ロバストフーリエニューラルネットワーク
Robust Fourier Neural Networks ( http://arxiv.org/abs/2409.02052v1 ) ライセンス: Link先を確認 | Halyun Jeong, Jihun Han, | (参考訳) フーリエ埋め込みは、ニューラルネットワークトレーニング中にスペクトルバイアスを取り除くことに大きな期待を示している。
しかし、特にラベルや測定がうるさい場合には、高い一般化誤差に悩まされることがある。
本研究では,Fourier埋め込み層の後,単純な対角層を導入することで,ノイズの測定にネットワークをより堅牢にし,疎度なFourier特徴の学習を効果的に促すことを実証する。
このフーリエ特徴学習の理論的正当性を提供し、近年の対角ネットワークの発展とニューラルネットワークにおける暗黙の正規化を活用している。
特定の条件下では、フーリエ関数の非線形関数の雑音混合である関数も学習することができる。
提案手法の有効性を数値実験で検証し,本理論を裏付ける。
Fourier embedding has shown great promise in removing spectral bias during neural network training. However, it can still suffer from high generalization errors, especially when the labels or measurements are noisy. We demonstrate that introducing a simple diagonal layer after the Fourier embedding layer makes the network more robust to measurement noise, effectively prompting it to learn sparse Fourier features. We provide theoretical justifications for this Fourier feature learning, leveraging recent developments in diagonal networks and implicit regularization in neural networks. Under certain conditions, our proposed approach can also learn functions that are noisy mixtures of nonlinear functions of Fourier features. Numerical experiments validate the effectiveness of our proposed architecture, supporting our theory. | 翻訳日:2024-09-06 00:21:46 公開日:2024-09-03 |
# F2former:Frictional FourierがDeep Wiener DeconvolutionとSelective Frequency Transformerに出会ったとき
F2former: When Fractional Fourier Meets Deep Wiener Deconvolution and Selective Frequency Transformer for Image Deblurring ( http://arxiv.org/abs/2409.02056v1 ) ライセンス: Link先を確認 | Subhajit Paul, Sahil Kumawat, Ashutosh Gupta, Deepak Mishra, | (参考訳) 画像デブロアリング技術の最近の進歩は、主にフーリエ変換(FT)特性を用いた周波数領域と空間領域の両方での動作に焦点を当てている。
しかし、静止信号に対するFTの依存性と空間周波数特性の抽出能力の欠如により、その性能は制限されている。
本稿では、空間成分と周波数成分を同時に活用した空間周波数表現であるFRFTに基づく新しい手法を提案し、画像のような非定常信号の処理に最適である。
具体的には、古典的な分数フーリエベースのWienerデコンボリューション(F2WD)と、新しい分数周波数対応トランスブロック(F2TB)に基づくマルチブランチエンコーダデコーダ変換(F2TB)を組み合わせるフラクタルフーリエ変換器(F2former)を導入する。
本研究では、周波数分割多重化(FM-FFN)に基づく新しいフィードフォワードネットワークと、重要な周波数成分に基づいて要素単位の製品注目度を推定するF2SAと、高周波数特徴と低周波数特徴を分離して洗練し、効率的な遅延クリア画像復元を行うF2TBを設計する。
以上の結果から, 提案手法の性能は他のSOTA法よりも優れていることが示唆された。
Recent progress in image deblurring techniques focuses mainly on operating in both frequency and spatial domains using the Fourier transform (FT) properties. However, their performance is limited due to the dependency of FT on stationary signals and its lack of capability to extract spatial-frequency properties. In this paper, we propose a novel approach based on the Fractional Fourier Transform (FRFT), a unified spatial-frequency representation leveraging both spatial and frequency components simultaneously, making it ideal for processing non-stationary signals like images. Specifically, we introduce a Fractional Fourier Transformer (F2former), where we combine the classical fractional Fourier based Wiener deconvolution (F2WD) as well as a multi-branch encoder-decoder transformer based on a new fractional frequency aware transformer block (F2TB). We design F2TB consisting of a fractional frequency aware self-attention (F2SA) to estimate element-wise product attention based on important frequency components and a novel feed-forward network based on frequency division multiplexing (FM-FFN) to refine high and low frequency features separately for efficient latent clear image restoration. Experimental results for the cases of both motion deblurring as well as defocus deblurring show that the performance of our proposed method is superior to other state-of-the-art (SOTA) approaches. | 翻訳日:2024-09-06 00:21:46 公開日:2024-09-03 |
# OLMoE: オープン・ミックス・オブ・エクササイズ言語モデル
OLMoE: Open Mixture-of-Experts Language Models ( http://arxiv.org/abs/2409.02060v1 ) ライセンス: Link先を確認 | Niklas Muennighoff, Luca Soldaini, Dirk Groeneveld, Kyle Lo, Jacob Morrison, Sewon Min, Weijia Shi, Pete Walsh, Oyvind Tafjord, Nathan Lambert, Yuling Gu, Shane Arora, Akshita Bhagia, Dustin Schwenk, David Wadden, Alexander Wettig, Binyuan Hui, Tim Dettmers, Douwe Kiela, Ali Farhadi, Noah A. Smith, Pang Wei Koh, Amanpreet Singh, Hannaneh Hajishirzi, | (参考訳) 我々は,Sparse Mixture-of-Experts (MoE)を利用した,完全にオープンで最先端の言語モデルOLMoEを紹介する。
OLMoE-1B-7Bは70億(B)のパラメータを持つが、入力トークンごとに1Bしか使用しない。
5兆のトークンで事前トレーニングし、さらにOLMoE-1B-7B-インストラクトを作成するように適応します。
私たちのモデルは、Llama2-13B-ChatやDeepSeekMoE-16Bなど、同様のアクティブパラメータを持つすべてのモデルよりも優れています。
モデルウェイト,トレーニングデータ,コード,ログなど,作業のすべての側面をオープンソースとして公開しています。
We introduce OLMoE, a fully open, state-of-the-art language model leveraging sparse Mixture-of-Experts (MoE). OLMoE-1B-7B has 7 billion (B) parameters but uses only 1B per input token. We pretrain it on 5 trillion tokens and further adapt it to create OLMoE-1B-7B-Instruct. Our models outperform all available models with similar active parameters, even surpassing larger ones like Llama2-13B-Chat and DeepSeekMoE-16B. We present various experiments on MoE training, analyze routing in our model showing high specialization, and open-source all aspects of our work: model weights, training data, code, and logs. | 翻訳日:2024-09-06 00:21:46 公開日:2024-09-03 |
# 超電導NISQアーキテクチャの比較
Comparison of Superconducting NISQ Architectures ( http://arxiv.org/abs/2409.02063v1 ) ライセンス: Link先を確認 | Benjamin Rempfer, Kevin Obenland, | (参考訳) 量子ハードウェアの進歩は、ノイズの多い中間スケール量子(NISQ)コンピューティング時代が始まった。
新しい量子マシンの仕組みを利用するのに最も適したアーキテクチャは何か?
我々は,GoogleのSycamore,IBMのHeavy-Hex,RigettiのAspen,Ankaaなどの超伝導アーキテクチャに加えて,バスの隣人(busNNN)と呼ばれるアーキテクチャを提案する。
量子近似最適化アルゴリズム(QAOA)に基づくベンチマークを用いて,これらのアーキテクチャを評価する。
また、これらのアーキテクチャを対象とするコンパイルツールについても検討し、一般にヒューリスティックもしくは決定論的手法を用いて、アーキテクチャによって定義されたターゲットトポロジに回路をマッピングする。
Advances in quantum hardware have begun the noisy intermediate-scale quantum (NISQ) computing era. A pressing question is: what architectures are best suited to take advantage of this new regime of quantum machines? We study various superconducting architectures including Google's Sycamore, IBM's Heavy-Hex, Rigetti's Aspen, and Ankaa in addition to a proposed architecture we call bus next-nearest neighbor (busNNN). We evaluate these architectures using benchmarks based on the quantum approximate optimization algorithm (QAOA) which can solve certain quadratic unconstrained binary optimization (QUBO) problems. We also study compilation tools that target these architectures, which use either general heuristic or deterministic methods to map circuits onto a target topology defined by an architecture. | 翻訳日:2024-09-06 00:21:46 公開日:2024-09-03 |
# アクティブサンプリングによる個人化フェデレーション学習
Personalized Federated Learning via Active Sampling ( http://arxiv.org/abs/2409.02064v1 ) ライセンス: Link先を確認 | Alexander Jung, Yasmin SarcheshmehPour, Amirhossein Mohammadi, | (参考訳) 例えば、スマートフォンやウェアラブルを備えた人間を表現できるデータジェネレータの集合を考える。
私たちは、小さなローカルデータセットのみを提供する場合でも、各データジェネレータに対してパーソナライズされた(あるいは調整された)モデルをトレーニングしたいと考えています。
利用可能なローカルデータセットは、高次元モデル(ディープニューラルネットワークなど)を効果的にトレーニングするのに十分な統計的パワーを提供できない可能性がある。
可能な解決策のひとつは、類似したデータジェネレータを特定して、ローカルデータセットをプールして、十分な大規模なトレーニングセットを取得することだ。
本稿では,類似した(あるいは関連する)データジェネレータを逐次同定する手法を提案する。
本手法は, アクティブサンプリング法とよく似ているが, 生データの交換は不要である。
実際,本手法は局所的なデータセットを用いて勾配ステップの効果を評価することにより,データジェネレータの関連性を評価する。
この評価は、生データを共有せずに、プライバシーに優しい方法で行うことができる。
データ生成器が提供する局所的データセットを用いて仮説を更新するために、勾配ステップの適切な一般化により、この手法を非パラメトリックモデルに拡張する。
Consider a collection of data generators which could represent, e.g., humans equipped with a smart-phone or wearables. We want to train a personalized (or tailored) model for each data generator even if they provide only small local datasets. The available local datasets might fail to provide sufficient statistical power to train high-dimensional models (such as deep neural networks) effectively. One possible solution is to identify similar data generators and pool their local datasets to obtain a sufficiently large training set. This paper proposes a novel method for sequentially identifying similar (or relevant) data generators. Our method is similar in spirit to active sampling methods but does not require exchange of raw data. Indeed, our method evaluates the relevance of a data generator by evaluating the effect of a gradient step using its local dataset. This evaluation can be performed in a privacy-friendly fashion without sharing raw data. We extend this method to non-parametric models by a suitable generalization of the gradient step to update a hypothesis using the local dataset provided by a data generator. | 翻訳日:2024-09-06 00:21:46 公開日:2024-09-03 |
# 確率量子化を用いた高次元データのロバストクラスタリング
Robust Clustering on High-Dimensional Data with Stochastic Quantization ( http://arxiv.org/abs/2409.02066v1 ) ライセンス: Link先を確認 | Vladimir Norkin, Anton Kozyriev, | (参考訳) 本稿では、従来のベクトル量子化(クラスタリング)アルゴリズム、特にK-Meansとその変種K-Means++の限界に対処し、高次元の教師なしおよび半教師付き学習問題に対するスケーラブルな代替手段として、確率量子化(SQ)アルゴリズムを探求する。
従来のクラスタリングアルゴリズムでは、計算中の非効率なメモリ利用に悩まされており、すべてのデータサンプルをメモリにロードする必要があるため、大規模なデータセットでは実用的ではない。
Mini-Batch K-Meansのような変種は、メモリ使用量の削減によってこの問題を部分的に緩和するが、クラスタリング問題の非凸性に起因する堅牢な理論的収束保証は欠如している。
対照的に、確率量子化アルゴリズムは強力な理論的収束保証を提供し、クラスタリングタスクの堅牢な代替となる。
本研究では,ラベル付きデータとラベル付きデータの様々な比率でモデル精度を比較し,部分ラベル付きデータを用いた画像分類問題に対して,アルゴリズムの計算効率と迅速な収束性を実証する。
高次元の課題に対処するため,我々は,Stochastic Quantizationアルゴリズムと従来の量子化アルゴリズムの両アルゴリズムの効率を比較する基盤となる,潜時空間の低次元表現に画像をエンコードするようにTriplet Networkを訓練した。
さらに,適応学習率による修正を導入することにより,アルゴリズムの収束速度を向上させる。
This paper addresses the limitations of traditional vector quantization (clustering) algorithms, particularly K-Means and its variant K-Means++, and explores the Stochastic Quantization (SQ) algorithm as a scalable alternative for high-dimensional unsupervised and semi-supervised learning problems. Some traditional clustering algorithms suffer from inefficient memory utilization during computation, necessitating the loading of all data samples into memory, which becomes impractical for large-scale datasets. While variants such as Mini-Batch K-Means partially mitigate this issue by reducing memory usage, they lack robust theoretical convergence guarantees due to the non-convex nature of clustering problems. In contrast, the Stochastic Quantization algorithm provides strong theoretical convergence guarantees, making it a robust alternative for clustering tasks. We demonstrate the computational efficiency and rapid convergence of the algorithm on an image classification problem with partially labeled data, comparing model accuracy across various ratios of labeled to unlabeled data. To address the challenge of high dimensionality, we trained Triplet Network to encode images into low-dimensional representations in a latent space, which serve as a basis for comparing the efficiency of both the Stochastic Quantization algorithm and traditional quantization algorithms. Furthermore, we enhance the algorithm's convergence speed by introducing modifications with an adaptive learning rate. | 翻訳日:2024-09-06 00:21:46 公開日:2024-09-03 |
# オンライン強化学習アルゴリズムを口腔内臨床実験に導入する
A Deployed Online Reinforcement Learning Algorithm In An Oral Health Clinical Trial ( http://arxiv.org/abs/2409.02069v1 ) ライセンス: Link先を確認 | Anna L. Trella, Kelly W. Zhang, Hinal Jajal, Inbal Nahum-Shani, Vivek Shetty, Finale Doshi-Velez, Susan A. Murphy, | (参考訳) 歯科疾患は、重度の財政的負担、個人的苦痛、全身疾患のリスクの増加に伴う慢性疾患である。
毎日2回歯磨きを推奨しているにもかかわらず、忘れやすさや解離などの要因により、推奨された口腔セルフケア行動への固執は依然として最適ではない。
そこで我々は, 歯科疾患のリスクがある医療従事者に対して, 医療従事者の予防ケアを補完する医療介入システムOralyticsを開発した。
Oralyticsは、オンライン強化学習アルゴリズムを組み込んで、介入のプロンプトを提供する最適な時間を決定する。
我々はOralyticsを登録臨床試験に導入した。
この配備は、米国での臨床試験に特有の課題を管理するために慎重な設計を必要とした。
本稿では,(1)これらの課題に対処するRLアルゴリズムの鍵となる設計決定を強調し,(2)アルゴリズム設計決定を評価するために再サンプリング分析を行う。
オーラシスの第2段階(ランダム化制御試験)は2025年春に開始される予定である。
Dental disease is a prevalent chronic condition associated with substantial financial burden, personal suffering, and increased risk of systemic diseases. Despite widespread recommendations for twice-daily tooth brushing, adherence to recommended oral self-care behaviors remains sub-optimal due to factors such as forgetfulness and disengagement. To address this, we developed Oralytics, a mHealth intervention system designed to complement clinician-delivered preventative care for marginalized individuals at risk for dental disease. Oralytics incorporates an online reinforcement learning algorithm to determine optimal times to deliver intervention prompts that encourage oral self-care behaviors. We have deployed Oralytics in a registered clinical trial. The deployment required careful design to manage challenges specific to the clinical trials setting in the U.S. In this paper, we (1) highlight key design decisions of the RL algorithm that address these challenges and (2) conduct a re-sampling analysis to evaluate algorithm design decisions. A second phase (randomized control trial) of Oralytics is planned to start in spring 2025. | 翻訳日:2024-09-06 00:21:46 公開日:2024-09-03 |
# 心臓メッシュ再建のための明示的微分スライシングと大域的変形
Explicit Differentiable Slicing and Global Deformation for Cardiac Mesh Reconstruction ( http://arxiv.org/abs/2409.02070v1 ) ライセンス: Link先を確認 | Yihao Luo, Dario Sesia, Fanwen Wang, Yinzhe Wu, Wenhao Ding, Jiahao Huang, Fadong Shi Anoop Shah, Amit Kaural, Jamil Mayet, Guang Yang, ChoonHwai Yap, | (参考訳) 医用画像からの心臓解剖のメッシュ再構築は、心臓機能と健康の評価を容易にするための形状・運動計測および生体物理シミュレーションに有用である。
しかし、3Dの医用画像はしばしば、わずかにサンプリングされノイズの多い2Dスライスとして取得され、そのようなデータのメッシュ再構築は難しい作業である。
従来のボクセルベースのアプローチは、イメージの忠実性を損なう前処理と後処理に頼っているが、メッシュレベルのディープラーニングアプローチでは、取得が難しいメッシュアノテーションが必要になる。
そのため、2次元画像からメッシュへのドメイン間直接監視は、医用画像における3次元学習を前進させる重要な技術であるが、まだ十分に開発されていない。
最適化メッシュスライシングを近似する試みがあるが、メッシュ再構築を異なる方法で監視するために2Dスライスを直接使用する方法はほとんどない。
本稿では,2次元画像上に定義された損失によって直接監督される洗練されたメッシュ最適化を実現するために,メッシュのスライスから勾配のバックプロパゲーションを可能にする,新しい識別可能なボキセル化とスライシング(DVS)アルゴリズムを提案する。
さらに,DVSとグラフ調和変形(GHD)メッシュ形態記述子を結合することにより,医用画像から患者固有の左室メッシュ(LV)を抽出する革新的な枠組みを提案する。
実験の結果,CTおよびMRIによる心メッシュ再建作業において,Diceスコアの90%をマルチデータセット上で達成し,既存手法より優れていた。
提案手法は, 抽出率や大域心筋病変などの臨床的に有用なパラメータを定量化し, 基礎的真実と密に一致し, スパース画像における従来のボクセルベースアプローチを克服する。
Mesh reconstruction of the cardiac anatomy from medical images is useful for shape and motion measurements and biophysics simulations to facilitate the assessment of cardiac function and health. However, 3D medical images are often acquired as 2D slices that are sparsely sampled and noisy, and mesh reconstruction on such data is a challenging task. Traditional voxel-based approaches rely on pre- and post-processing that compromises image fidelity, while mesh-level deep learning approaches require mesh annotations that are difficult to get. Therefore, direct cross-domain supervision from 2D images to meshes is a key technique for advancing 3D learning in medical imaging, but it has not been well-developed. While there have been attempts to approximate the optimized meshes' slicing, few existing methods directly use 2D slices to supervise mesh reconstruction in a differentiable manner. Here, we propose a novel explicit differentiable voxelization and slicing (DVS) algorithm that allows gradient backpropagation to a mesh from its slices, facilitating refined mesh optimization directly supervised by the losses defined on 2D images. Further, we propose an innovative framework for extracting patient-specific left ventricle (LV) meshes from medical images by coupling DVS with a graph harmonic deformation (GHD) mesh morphing descriptor of cardiac shape that naturally preserves mesh quality and smoothness during optimization. Experimental results demonstrate that our method achieves state-of-the-art performance in cardiac mesh reconstruction tasks from CT and MRI, with an overall Dice score of 90% on multi-datasets, outperforming existing approaches. The proposed method can further quantify clinically useful parameters such as ejection fraction and global myocardial strains, closely matching the ground truth and surpassing the traditional voxel-based approach in sparse images. | 翻訳日:2024-09-06 00:04:31 公開日:2024-09-03 |
# RACONTEUR: 知識があり、洞察力があり、ポータブルなLLM搭載シェルコマンド説明器
RACONTEUR: A Knowledgeable, Insightful, and Portable LLM-Powered Shell Command Explainer ( http://arxiv.org/abs/2409.02074v1 ) ライセンス: Link先を確認 | Jiangyi Deng, Xinfeng Li, Yanjiao Chen, Yijie Bai, Haiqin Weng, Yan Liu, Tao Wei, Wenyuan Xu, | (参考訳) 悪意のあるシェルコマンドは多くのサイバー攻撃に対するリンチピンであるが、複雑でしばしば偽装されたコード構造のためにセキュリティアナリストが理解するのは容易ではないかもしれない。
大きな言語モデル(LLM)の進歩は、シェルコマンドの理解可能な説明を生成する可能性を解放した。
しかし、既存の汎用LLMは、専門知識の欠如と、シェルコマンド説明のタスクに幻覚を与える傾向に悩まされている。
本稿では, LLM を用いた知識, 表現, 携帯型シェルコマンド説明装置である Raconteur について述べる。
ラコントゥールには、コマンドが何をするか(例えば行動)だけでなく、コマンドがなぜそれを行うのか(すなわち目的)など、シェルコマンドに関する包括的な説明を提供する専門知識が注がれている。
コマンドの高レベルな意図を明らかにするために、我々は、自然言語に基づく説明を、世界中のサイバーセキュリティの知識基盤であるMITRE ATT&CKによって定義された標準技術と戦術に変換する。
さらに、Raconteurが未確認のプライベートコマンドを説明するために、補完的なドキュメントから関連情報を取得し、説明プロセスを支援する文書検索ツールを開発した。
我々は,大規模な訓練用データセットを作成し,Raconteurのシェルコマンド説明能力を評価するための広範囲な実験を行った。
実験は、Raconteurがこのコマンドの意図について、高品質な説明と詳細な洞察を提供することができることを検証した。
Malicious shell commands are linchpins to many cyber-attacks, but may not be easy to understand by security analysts due to complicated and often disguised code structures. Advances in large language models (LLMs) have unlocked the possibility of generating understandable explanations for shell commands. However, existing general-purpose LLMs suffer from a lack of expert knowledge and a tendency to hallucinate in the task of shell command explanation. In this paper, we present Raconteur, a knowledgeable, expressive and portable shell command explainer powered by LLM. Raconteur is infused with professional knowledge to provide comprehensive explanations on shell commands, including not only what the command does (i.e., behavior) but also why the command does it (i.e., purpose). To shed light on the high-level intent of the command, we also translate the natural-language-based explanation into standard technique & tactic defined by MITRE ATT&CK, the worldwide knowledge base of cybersecurity. To enable Raconteur to explain unseen private commands, we further develop a documentation retriever to obtain relevant information from complementary documentations to assist the explanation process. We have created a large-scale dataset for training and conducted extensive experiments to evaluate the capability of Raconteur in shell command explanation. The experiments verify that Raconteur is able to provide high-quality explanations and in-depth insight of the intent of the command. | 翻訳日:2024-09-06 00:04:31 公開日:2024-09-03 |
# 金糸の紡糸:言語モデルにおける長期生成のベンチマーク
Spinning the Golden Thread: Benchmarking Long-Form Generation in Language Models ( http://arxiv.org/abs/2409.02076v1 ) ライセンス: Link先を確認 | Yuhao Wu, Ming Shan Hee, Zhiqing Hu, Roy Ka-Wei Lee, | (参考訳) 長文言語モデル(LM)の能力は「Needle-in-a-Haystack」(NIAH)テストを用いて評価されることが多い。
これらのベンチマークは、モデルがいかに長文入力シーケンスをよく理解しているかを測定するが、長文テキスト生成の質を効果的に評価することは、設計提案や創造的記述のようなアプリケーションにとって重要な側面である。
このギャップに対処するため、我々は新しい長文評価ベンチマーク、Spinning the Golden Thread (SGT)を導入しました。
本ベンチマークでは,長文LMに対して,特定のイベントや制約を含む長文を生成するように促し,それらの要素を組み込む能力を評価する。
我々は,4つのシナリオ,3種類のプロンプト命令,2つの世代長設定(16K,32K)にまたがる10種類の長文LMを評価した。
これらのモデルはNIAHベンチマークでよく機能するが、Spinning the Golden Threadで満足できる性能は示さず、命令に従う一貫性のある長文を生成する能力に懸念を抱いた。
さらに、生成されたテキストの長さが大きくなると、すべてのモデルのパフォーマンスが大幅に低下する。
The abilities of long-context language models (LMs) are often evaluated using the "Needle-in-a-Haystack" (NIAH) test, which comprises tasks designed to assess a model's ability to identify specific information ("needle") within large text sequences ("haystack"). While these benchmarks measure how well models understand long-context input sequences, they do not effectively gauge the quality of long-form text generation--a critical aspect for applications such as design proposals and creative writing. To address this gap, we have introduced a new long-form text evaluation benchmark, Spinning the Golden Thread (SGT), which tests models' ability to identify specific events within generated long text sequences. In this benchmark, we prompt long-context LMs to create long-form text that must include particular events or constraints and evaluate their ability to incorporate these elements. We evaluated ten long-context LMs across four distinct scenarios, three types of prompt instructions, and two different generation-length settings (16K and 32K). Although these models perform well on NIAH benchmarks, none demonstrated satisfactory performance on the Spinning the Golden Thread, raising concerns about their ability to generate coherent long-form text that follows instructions. Additionally, as the length of the generated text increases, all models exhibit a significant drop in performance. | 翻訳日:2024-09-06 00:04:31 公開日:2024-09-03 |
# 政治議論: 政治テキストのための効率的なゼロショットとフイショット分類器
Political DEBATE: Efficient Zero-shot and Few-shot Classifiers for Political Text ( http://arxiv.org/abs/2409.02078v1 ) ライセンス: Link先を確認 | Michael Burnham, Kayla Kahn, Ryan Yank Wang, Rachel X. Peng, | (参考訳) 社会科学者は、教師付きトレーニングなしで文書に注釈を付ける能力、ゼロショット学習(zero-shot learning)と呼ばれる能力により、すぐに大きな言語モデルを採用した。
しかしながら、それらの計算要求、コスト、そしてしばしばプロプライエタリな性質のため、これらのモデルは複製やオープンサイエンス標準に反することが多い。
本稿では、ゼロショットおよび少数ショットの政治文書分類のための政治DeBATE(DeBERTa Algorithm for Textual Entailment)言語モデルを提案する。
これらのモデルは、ゼロと数ショットの分類における最先端の大規模言語モデルよりも優れている、あるいは優れているだけでなく、桁違いに効率的で完全にオープンソースである。
10-25文書の単純なランダムなサンプルでモデルをトレーニングすることで、数百から数千のドキュメントで訓練された教師付き分類器や、複雑なエンジニアリングプロンプトを備えた最先端の生成モデルより優れている。
さらに、800以上の分類タスクに高い精度のラベルを持つ20万以上の政治文書からなるコーパスである、これらのモデルをトレーニングするために使用されるPolNLIデータセットもリリースしています。
Social scientists quickly adopted large language models due to their ability to annotate documents without supervised training, an ability known as zero-shot learning. However, due to their compute demands, cost, and often proprietary nature, these models are often at odds with replication and open science standards. This paper introduces the Political DEBATE (DeBERTa Algorithm for Textual Entailment) language models for zero-shot and few-shot classification of political documents. These models are not only as good, or better than, state-of-the art large language models at zero and few-shot classification, but are orders of magnitude more efficient and completely open source. By training the models on a simple random sample of 10-25 documents, they can outperform supervised classifiers trained on hundreds or thousands of documents and state-of-the-art generative models with complex, engineered prompts. Additionally, we release the PolNLI dataset used to train these models -- a corpus of over 200,000 political documents with highly accurate labels across over 800 classification tasks. | 翻訳日:2024-09-06 00:04:31 公開日:2024-09-03 |
# 一般・循環座標系におけるAI/MLのための合成データ生成と自動多次元データラベリング
Synthetic Data Generation and Automated Multidimensional Data Labeling for AI/ML in General and Circular Coordinates ( http://arxiv.org/abs/2409.02079v1 ) ライセンス: Link先を確認 | Alice Williams, Boris Kovalerchuk, | (参考訳) 人工知能と機械学習(AI/ML)モデルの開発と展開の両方において、十分な量のトレーニングデータが不足していることが重要な課題である。
本稿では,SDG-ADLアルゴリズムを用いた合成データ生成(SDG)と自動データラベリング(ADL)の両方に対する統一的なアプローチを提案する。
SDG-ADLは、GLC(General Line Coordinates)と無作為に視覚化されたデータの多次元(n-D)表現を使用し、複数のGLCでn-Dデータを視覚化するために可逆的なGLC特性に依存している。
本稿では,Parallel CoordinatesとShifted Paired Coordinatesを併用した静的および動的形状における新しいCircular Coordinatesの利用について述べる。
この手法は動的コーディネート・ビジュアライゼーション・システム(DCVis)を用いてコンピュータ・ソフトウェアでインタラクティブに実装されている。
実データによる結果はケーススタディで実証され、分類器への影響を評価する。
Insufficient amounts of available training data is a critical challenge for both development and deployment of artificial intelligence and machine learning (AI/ML) models. This paper proposes a unified approach to both synthetic data generation (SDG) and automated data labeling (ADL) with a unified SDG-ADL algorithm. SDG-ADL uses multidimensional (n-D) representations of data visualized losslessly with General Line Coordinates (GLCs), relying on reversible GLC properties to visualize n-D data in multiple GLCs. This paper demonstrates use of the new Circular Coordinates in Static and Dynamic forms, used with Parallel Coordinates and Shifted Paired Coordinates, since each GLC exemplifies unique data properties, such as interattribute n-D distributions and outlier detection. The approach is interactively implemented in computer software with the Dynamic Coordinates Visualization system (DCVis). Results with real data are demonstrated in case studies, evaluating impact on classifiers. | 翻訳日:2024-09-06 00:04:31 公開日:2024-09-03 |
# 物理規則誘導畳み込みニューラルネットワーク
Physical Rule-Guided Convolutional Neural Network ( http://arxiv.org/abs/2409.02081v1 ) ライセンス: Link先を確認 | Kishor Datta Gupta, Marufa Kamal, Rakib Hossain Rifat, Mohd Ariful Haque, Roy George, | (参考訳) 畳み込みニューラルネットワーク(CNN)のブラックボックスの性質と、大規模なデータセットへの依存は、ラベル付きデータに制限された複雑なドメインでの使用を制限する。
物理誘導ニューラルネットワーク(PGNN)は、科学的原理と現実世界の知識を統合し、モデルの解釈可能性と効率を向上させることによって、これらの制限に対処する。
本稿では,有限データや低信頼度スコアといった課題に対処するカスタムレイヤとして,動的,トレーニング可能,自動化されたLCM生成ルールをモデルに統合した物理誘導型CNN(PGCNN)アーキテクチャを提案する。
PGCNNは複数のデータセットで評価され、ベースラインCNNモデルよりも優れた性能を示す。
主な改善点は、偽陽性の大幅な減少と、真検出のための信頼性スコアの強化である。
その結果、より広いアプリケーション領域において、CNNの性能を改善するためのPGCNNの可能性を強調した。
The black-box nature of Convolutional Neural Networks (CNNs) and their reliance on large datasets limit their use in complex domains with limited labeled data. Physics-Guided Neural Networks (PGNNs) have emerged to address these limitations by integrating scientific principles and real-world knowledge, enhancing model interpretability and efficiency. This paper proposes a novel Physics-Guided CNN (PGCNN) architecture that incorporates dynamic, trainable, and automated LLM-generated, widely recognized rules integrated into the model as custom layers to address challenges like limited data and low confidence scores. The PGCNN is evaluated on multiple datasets, demonstrating superior performance compared to a baseline CNN model. Key improvements include a significant reduction in false positives and enhanced confidence scores for true detection. The results highlight the potential of PGCNNs to improve CNN performance for broader application areas. | 翻訳日:2024-09-06 00:04:31 公開日:2024-09-03 |
# GraspSplats: 3D特徴分割による効率的な操作
GraspSplats: Efficient Manipulation with 3D Feature Splatting ( http://arxiv.org/abs/2409.02084v1 ) ライセンス: Link先を確認 | Mazeyu Ji, Ri-Zhao Qiu, Xueyan Zou, Xiaolong Wang, | (参考訳) ロボットが物体部品を効率よくゼロショットでつかむ能力は、実用上極めて重要であり、近年のビジョン・ランゲージ・モデル(VLM)の発展とともに普及しつつある。
このような能力をサポートするために表現のための2Dから3Dのギャップを埋めるために、既存の手法は、微分可能なレンダリングやポイントベースプロジェクションメソッドを通じて、ニューラルネットワーク(NeRF)に依存している。
しかし,NeRFは暗黙性のためシーン変更には不適切であり,点ベース手法はレンダリングベース最適化を使わずに部分ローカライゼーションには不正確であることを示す。
これらの問題を解決するため、我々はGraspSplatsを提案する。
深度監視と新しい参照特徴計算法を用いて,60秒未満で高品質なシーン表現を生成する。
さらに,GraspSplatsにおける明示的かつ最適化された幾何は,(1)リアルタイムグリップサンプリングと(2)ポイントトラッカーを用いた動的・明瞭なオブジェクト操作をネイティブにサポートするのに十分であることを示すことにより,ガウス表現の利点を検証した。
フランカロボットの広範な実験により,GraspSplatsはタスク設定の異なる既存手法よりも優れていたことが実証された。
特にGraspSplatsは、F3RMやLERF-TOGOのようなNeRFベースの手法と2D検出方法より優れている。
The ability for robots to perform efficient and zero-shot grasping of object parts is crucial for practical applications and is becoming prevalent with recent advances in Vision-Language Models (VLMs). To bridge the 2D-to-3D gap for representations to support such a capability, existing methods rely on neural fields (NeRFs) via differentiable rendering or point-based projection methods. However, we demonstrate that NeRFs are inappropriate for scene changes due to their implicitness and point-based methods are inaccurate for part localization without rendering-based optimization. To amend these issues, we propose GraspSplats. Using depth supervision and a novel reference feature computation method, GraspSplats generates high-quality scene representations in under 60 seconds. We further validate the advantages of Gaussian-based representation by showing that the explicit and optimized geometry in GraspSplats is sufficient to natively support (1) real-time grasp sampling and (2) dynamic and articulated object manipulation with point trackers. With extensive experiments on a Franka robot, we demonstrate that GraspSplats significantly outperforms existing methods under diverse task settings. In particular, GraspSplats outperforms NeRF-based methods like F3RM and LERF-TOGO, and 2D detection methods. | 翻訳日:2024-09-06 00:04:31 公開日:2024-09-03 |
# CPAchecker 3.0によるソフトウェア検証: チュートリアルとユーザガイド(拡張版)
Software Verification with CPAchecker 3.0: Tutorial and User Guide (Extended Version) ( http://arxiv.org/abs/2409.02094v1 ) ライセンス: Link先を確認 | Daniel Baier, Dirk Beyer, Po-Chun Chien, Marie-Christine Jakobs, Marek Jankola, Matthias Kettl, Nian-Ze Lee, Thomas Lemberger, Marian Lingsch-Rosenfeld, Henrik Wachowitz, Philipp Wendler, | (参考訳) このチュートリアルでは、CPAcheckerをユーザに紹介する。
CPAcheckerは、ソフトウェア検証とテストのためのフレキシブルで構成可能なフレームワークである。
このフレームワークはBDD、明示的な値、インターバル、メモリグラフ、述語といった多くの抽象的なドメインを提供し、抽象的な解釈、境界モデルチェック、インパクト、補間ベースのモデルチェック、k-induction、PDR、述語抽象化、象徴的実行といった多くのプログラム分析とモデルチェックのアルゴリズムを提供している。
このチュートリアルでは、CPAチェッカーの基本的ユースケースを形式的ソフトウェア検証で紹介し、その長所と短所に焦点をあてる。
また、テストケース生成と証人ベースの結果検証のためのCPAチェッカーのさらなるユースケースを示す。
想定される読者は、自動形式検証とプログラム分析の背景を持っていると仮定されるが、CPAチェッカーの事前知識は必要ない。
このチュートリアルとユーザガイドは、バージョン3.0のCPAチェッカーに基づいている。
このユーザガイドの最新バージョンとドキュメントはhttps://cpachecker.sosy-lab.org/doc.php.comで公開されている。
This tutorial provides an introduction to CPAchecker for users. CPAchecker is a flexible and configurable framework for software verification and testing. The framework provides many abstract domains, such as BDDs, explicit values, intervals, memory graphs, and predicates, and many program-analysis and model-checking algorithms, such as abstract interpretation, bounded model checking, Impact, interpolation-based model checking, k -induction, PDR, predicate abstraction, and symbolic execution. This tutorial presents basic use cases for CPAchecker in formal software verification, focusing on its main verification techniques with their strengths and weaknesses. It also shows further use cases of CPAchecker for test-case generation and witness-based result validation. The envisioned readers are assumed to possess a background in automatic formal verification and program analysis, but prior knowledge of CPAchecker is not required. This tutorial and user guide is based on CPAchecker in version 3.0. This user guide's latest version and other documentation are available at https://cpachecker.sosy-lab.org/doc.php. | 翻訳日:2024-09-06 00:04:31 公開日:2024-09-03 |
# DepthCrafter: オープンワールドビデオのための一貫性のある長い深さシーケンスを生成する
DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos ( http://arxiv.org/abs/2409.02095v1 ) ライセンス: Link先を確認 | Wenbo Hu, Xiangjun Gao, Xiaoyu Li, Sijie Zhao, Xiaodong Cun, Yong Zhang, Long Quan, Ying Shan, | (参考訳) 静止画像の単眼深度推定の大幅な進歩にもかかわらず、オープンワールドでの映像深度の推定は、コンテンツ、動き、カメラの動き、長さに非常に多様であるため、依然として困難である。
DepthCrafterは、カメラのポーズや光の流れなどの補足的な情報を必要としない、オープンワールドビデオの複雑な詳細で時間的に一貫した長い深度シーケンスを生成する革新的な方法である。
DepthCrafterは、事前訓練された画像-映像拡散モデルからビデオ-深度モデルをトレーニングし、コンパイルされたビデオ-深度データセットを用いた3段階トレーニング戦略を巧みに設計することで、ビデオのオープン化を実現する。
トレーニング手法により、モデルは、最大110フレームまでの可変長の深度シーケンスを生成し、リアルかつ合成されたデータセットから、正確な深度の詳細と豊富な内容の多様性を抽出することができる。
また,セグメントワイズ推定とシームレスな縫合により,非常に長いビデオを処理する推論戦略を提案する。
複数のデータセットに対する総合的な評価により、DepthCrafterはゼロショット設定下でのオープンワールドビデオ深度推定において最先端のパフォーマンスを達成することが明らかになった。
さらにDepthCrafterは、深度に基づく視覚効果や条件付きビデオ生成など、さまざまなダウンストリームアプリケーションを容易にする。
Despite significant advancements in monocular depth estimation for static images, estimating video depth in the open world remains challenging, since open-world videos are extremely diverse in content, motion, camera movement, and length. We present DepthCrafter, an innovative method for generating temporally consistent long depth sequences with intricate details for open-world videos, without requiring any supplementary information such as camera poses or optical flow. DepthCrafter achieves generalization ability to open-world videos by training a video-to-depth model from a pre-trained image-to-video diffusion model, through our meticulously designed three-stage training strategy with the compiled paired video-depth datasets. Our training approach enables the model to generate depth sequences with variable lengths at one time, up to 110 frames, and harvest both precise depth details and rich content diversity from realistic and synthetic datasets. We also propose an inference strategy that processes extremely long videos through segment-wise estimation and seamless stitching. Comprehensive evaluations on multiple datasets reveal that DepthCrafter achieves state-of-the-art performance in open-world video depth estimation under zero-shot settings. Furthermore, DepthCrafter facilitates various downstream applications, including depth-based visual effects and conditional video generation. | 翻訳日:2024-09-06 00:04:31 公開日:2024-09-03 |
# LinFusion:1GPU、1分、16K画像
LinFusion: 1 GPU, 1 Minute, 16K Image ( http://arxiv.org/abs/2409.02097v1 ) ライセンス: Link先を確認 | Songhua Liu, Weihao Yu, Zhenxiong Tan, Xinchao Wang, | (参考訳) 現代の拡散モデル、特にトランスフォーマーベースのUNetをデノナイズするために利用するモデルは、複雑な空間関係を管理するための自己注意操作に大きく依存しているため、印象的な生成性能が得られる。
しかし、この既存のパラダイムは、空間トークンの数に関して2次時間とメモリの複雑さのために、高解像度の視覚コンテンツを生成する上で大きな課題に直面している。
この制限に対処するために,本論文では,新たな線形注意機構を提案する。
具体的には、最近導入された線形複雑度モデル(例えば、Mamba、Mamba2、Gated Linear Attention)から探索を開始し、高分解能な視覚生成性能を向上する2つの重要な特徴のアテンション正規化と非因果推論を同定する。
これらの知見に基づいて、一般化された線形アテンションパラダイムを導入し、広く普及している線形トークンミキサーの低ランク近似として機能する。
トレーニングコストの削減と事前学習モデルの改善を目的として,本モデルの初期化と,事前学習されたStableDiffusion (SD) からの知識の抽出を行った。
蒸留モデルであるLinFusionは, 学習時間とメモリの複雑さを著しく低減しつつ, 従来のSDと同等以上の性能を実現していることがわかった。
SD-v1.5、SD-v2.1、SD-XLの大規模な実験は、LinFusionが良好なゼロショットのクロスレゾリューション生成性能を提供し、16K解像度のような高解像度画像を生成することを示した。
さらに、ControlNetやIP-Adapterといった事前トレーニング済みのSDコンポーネントとも互換性があり、適応作業は不要である。
コードはhttps://github.com/Huage001/LinFusion.comで入手できる。
Modern diffusion models, particularly those utilizing a Transformer-based UNet for denoising, rely heavily on self-attention operations to manage complex spatial relationships, thus achieving impressive generation performance. However, this existing paradigm faces significant challenges in generating high-resolution visual content due to its quadratic time and memory complexity with respect to the number of spatial tokens. To address this limitation, we aim at a novel linear attention mechanism as an alternative in this paper. Specifically, we begin our exploration from recently introduced models with linear complexity, e.g., Mamba, Mamba2, and Gated Linear Attention, and identify two key features-attention normalization and non-causal inference-that enhance high-resolution visual generation performance. Building on these insights, we introduce a generalized linear attention paradigm, which serves as a low-rank approximation of a wide spectrum of popular linear token mixers. To save the training cost and better leverage pre-trained models, we initialize our models and distill the knowledge from pre-trained StableDiffusion (SD). We find that the distilled model, termed LinFusion, achieves performance on par with or superior to the original SD after only modest training, while significantly reducing time and memory complexity. Extensive experiments on SD-v1.5, SD-v2.1, and SD-XL demonstrate that LinFusion delivers satisfactory zero-shot cross-resolution generation performance, generating high-resolution images like 16K resolution. Moreover, it is highly compatible with pre-trained SD components, such as ControlNet and IP-Adapter, requiring no adaptation efforts. Codes are available at https://github.com/Huage001/LinFusion. | 翻訳日:2024-09-06 00:04:31 公開日:2024-09-03 |
# データセットのCRAFT:コーパス検索と拡張によるタスク特異的な合成データセット生成
CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation ( http://arxiv.org/abs/2409.02098v1 ) ライセンス: Link先を確認 | Ingo Ziegler, Abdullatif Köksal, Desmond Elliott, Hinrich Schütze, | (参考訳) 専門的なタスクのための高品質なデータセットを構築することは、しばしば専門的なドメイン知識を必要とする時間とリソース集約的なプロセスである。
そこで我々は,合成データセットを生成する手法であるCorpus Retrieval and Augmentation for Fine-Tuning (CRAFT)を提案する。
例を挙げると, 大規模公開ウェブクローラと類似性に基づく文書検索を用いて, 関連文書の検索を行う。
最後に、命令調整された大きな言語モデル(LLM)は、検索した文書をカスタムフォーマットのタスクサンプルに拡張し、微調整に使用することができる。
CRAFTは,生物質問応答(QA),医学QA,常識QA,要約の4つのタスクに対して,大規模タスク固有のトレーニングデータセットを効率的に生成できることを実証した。
実験の結果、CRAFTに基づくモデルでは、QAタスクの一般的なLLMよりも優れ、あるいは同等の性能が得られ、一方、CRAFTに基づく要約モデルは、46の選好点でトレーニングされたモデルよりも優れていた。
Building high-quality datasets for specialized tasks is a time-consuming and resource-intensive process that often requires specialized domain knowledge. We propose Corpus Retrieval and Augmentation for Fine-Tuning (CRAFT), a method for generating synthetic datasets, given a small number of user-written few-shots that demonstrate the task to be performed. Given the few-shot examples, we use large-scale public web-crawled corpora and similarity-based document retrieval to find other relevant human-written documents. Lastly, instruction-tuned large language models (LLMs) augment the retrieved documents into custom-formatted task samples, which then can be used for fine-tuning. We demonstrate that CRAFT can efficiently generate large-scale task-specific training datasets for four diverse tasks: biology question-answering (QA), medicine QA and commonsense QA as well as summarization. Our experiments show that CRAFT-based models outperform or achieve comparable performance to general LLMs for QA tasks, while CRAFT-based summarization models outperform models trained on human-curated data by 46 preference points. | 翻訳日:2024-09-06 00:04:31 公開日:2024-09-03 |
# 超複雑システム状態としての意識の記述と機械意識の可能性へのヒューリスティックなアプローチ(ドイツ版)
On a heuristic approach to the description of consciousness as a hypercomplex system state and the possibility of machine consciousness (German edition) ( http://arxiv.org/abs/2409.02100v1 ) ライセンス: Link先を確認 | Ralf Otte, | (参考訳) 本稿は,すべての人間が経験する意識の内的状態が,物理的だが想像上の超複素基底を持つことを示すヒューリスティックな見解を提示する。
ある種の意識の過程は原則として物理的に測定できないが、それでも存在するため、超複雑な記述が必要である。
理論的な考察に基づいて、いわゆる複複素代数に関する数学的研究の結果、マシン上の超複素系状態をターゲットとして生成し、使用することが可能である。
マシン上の超複雑系の存在の仮説は、非常に複雑なAIシステムの驚くべき性能によってすでに支持されている。
しかし、これはまだ証明されていない。
特に、そのようなシステムと他のシステムとを区別する実験データがないため、後述の記事でこの問題に対処する。
本稿では, マシン上で超複素エネルギー状態を生成するための両複素代数とその応用の可能性について述べる。
文献では、そのような状態はしばしば機械意識と呼ばれる。
この記事では、どのように人工意識が生成されるのか、そのようなAIシステムにどのような利点があるのかを説明するために、数学的考察を使用する。
This article presents a heuristic view that shows that the inner states of consciousness experienced by every human being have a physical but imaginary hypercomplex basis. The hypercomplex description is necessary because certain processes of consciousness cannot be physically measured in principle, but nevertheless exist. Based on theoretical considerations, it could be possible - as a result of mathematical investigations into a so-called bicomplex algebra - to generate and use hypercomplex system states on machines in a targeted manner. The hypothesis of the existence of hypercomplex system states on machines is already supported by the surprising performance of highly complex AI systems. However, this has yet to be proven. In particular, there is a lack of experimental data that distinguishes such systems from other systems, which is why this question will be addressed in later articles. This paper describes the developed bicomplex algebra and possible applications of these findings to generate hypercomplex energy states on machines. In the literature, such system states are often referred to as machine consciousness. The article uses mathematical considerations to explain how artificial consciousness could be generated and what advantages this would have for such AI systems. | 翻訳日:2024-09-06 00:04:31 公開日:2024-09-03 |
# 現実の逆気象画像復元に向けて : 視覚言語モデルによる透明度とセマンティックスの向上
Towards Real-World Adverse Weather Image Restoration: Enhancing Clearness and Semantics with Vision-Language Models ( http://arxiv.org/abs/2409.02101v1 ) ライセンス: Link先を確認 | Jiaqi Xu, Mengyang Wu, Xiaowei Hu, Chi-Wing Fu, Qi Dou, Pheng-Ann Heng, | (参考訳) 本稿では,実世界のシナリオに適用した場合に,合成データに基づいてトレーニングした悪天候画像復元手法の限界について論じる。
本研究では、視覚言語モデルを用いた半教師付き学習フレームワークを定式化し、現実世界のさまざまな悪天候環境における復元性能を向上させる。
提案手法では,画像の明瞭度を評価し,実データ上で視覚言語モデルを用いて意味情報を提供し,復元モデルのトレーニングのための監視信号として機能する。
クリアネス向上のために、視覚言語モデルと天気予報学習によって評価された擬似ラベルを用いた2段階戦略を用いて、実世界のデータを利用する。
セマンティックエンハンスメントのために,意味を保ちながら視覚言語モデル記述の天気条件を調整し,実世界のデータを統合する。
さらに,復元性能のブートストラップに効果的なトレーニング戦略を導入する。
本手法は, 実世界の悪天候画像復元において, 定性的, 定量的な比較を行った結果, 優れた結果が得られた。
This paper addresses the limitations of adverse weather image restoration approaches trained on synthetic data when applied to real-world scenarios. We formulate a semi-supervised learning framework employing vision-language models to enhance restoration performance across diverse adverse weather conditions in real-world settings. Our approach involves assessing image clearness and providing semantics using vision-language models on real data, serving as supervision signals for training restoration models. For clearness enhancement, we use real-world data, utilizing a dual-step strategy with pseudo-labels assessed by vision-language models and weather prompt learning. For semantic enhancement, we integrate real-world data by adjusting weather conditions in vision-language model descriptions while preserving semantic meaning. Additionally, we introduce an effective training strategy to bootstrap restoration performance. Our approach achieves superior results in real-world adverse weather image restoration, demonstrated through qualitative and quantitative comparisons with state-of-the-art works. | 翻訳日:2024-09-06 00:04:31 公開日:2024-09-03 |
# DynOMo:動的オンライン単分子ガウス再構成によるオンラインポイントトラッキング
DynOMo: Online Point Tracking by Dynamic Online Monocular Gaussian Reconstruction ( http://arxiv.org/abs/2409.02104v1 ) ライセンス: Link先を確認 | Jenny Seidenschwarz, Qunjie Zhou, Bardienus Duisterhof, Deva Ramanan, Laura Leal-Taixé, | (参考訳) シーンの再構築と追跡動作は、同じコインの2つの側面である。
追跡ポイントは幾何学的再構成(14)が可能で、幾何学的(動的)なシーンは時間とともに3Dでポイントを追跡することができる[24,39]。
後者は、最近3D[38]に直接トラッキングを持ち上げることで、オクルージョンの曖昧さを克服するために、2Dポイントトラッキングにも利用されました。
しかし、上記のアプローチではオフライン処理か、ロボットナビゲーションや混合現実のような現実のアプリケーションでは非現実的なマルチビューカメラのセットアップが必要である。
動的オンラインモノクロレコンストラクション(DynOMo)を導入したモノクロカメラからのオンライン2Dおよび3Dポイントトラッキングの課題をターゲットにした。
我々は3Dガウススプラッティングを利用して動的シーンをオンラインに再構築する。
我々のアプローチは、3Dガウスアンを拡張して1枚のRGBフレームからカメラの動きを推定しながら、新しいコンテンツや物体の動きをキャプチャする。
DynOMoは、対応レベルの監督を必要とせず、頑健な画像特徴再構成と新しい類似性強化正規化項を通じて点軌道の出現を可能にすることで際立っている。
オンラインポイントトラッキングのための最初のベースラインをモノクロアンポーズカメラで設定し、既存の方法と同等のパフォーマンスを達成する。
我々は,オンラインのポイントトラッキングとリコンストラクションを推進し,様々な現実のシナリオに適用可能にすることを目的としている。
Reconstructing scenes and tracking motion are two sides of the same coin. Tracking points allow for geometric reconstruction [14], while geometric reconstruction of (dynamic) scenes allows for 3D tracking of points over time [24, 39]. The latter was recently also exploited for 2D point tracking to overcome occlusion ambiguities by lifting tracking directly into 3D [38]. However, above approaches either require offline processing or multi-view camera setups both unrealistic for real-world applications like robot navigation or mixed reality. We target the challenge of online 2D and 3D point tracking from unposed monocular camera input introducing Dynamic Online Monocular Reconstruction (DynOMo). We leverage 3D Gaussian splatting to reconstruct dynamic scenes in an online fashion. Our approach extends 3D Gaussians to capture new content and object motions while estimating camera movements from a single RGB frame. DynOMo stands out by enabling emergence of point trajectories through robust image feature reconstruction and a novel similarity-enhanced regularization term, without requiring any correspondence-level supervision. It sets the first baseline for online point tracking with monocular unposed cameras, achieving performance on par with existing methods. We aim to inspire the community to advance online point tracking and reconstruction, expanding the applicability to diverse real-world scenarios. | 翻訳日:2024-09-06 00:04:31 公開日:2024-09-03 |
# 臨界基底状態における量子力学的測定の内在的ランダム性からの非常に複雑な新しい臨界挙動-制御された再正規化群解析
Highly complex novel critical behavior from the intrinsic randomness of quantum mechanical measurements on critical ground states -- a controlled renormalization group analysis ( http://arxiv.org/abs/2409.02107v1 ) ライセンス: Link先を確認 | Rushikesh A. Patil, Andreas W. W. Ludwig, | (参考訳) 弱測定が1次元の量子臨界基底状態に及ぼす影響を考察する。
訳語 トリクリティカル;トリクリティカル
(b)測度による臨界量子イジングモデル
(a)局所エネルギーとイン
b) 格子の定式化における局所スピン作用素。
制御された再正規化群 (RG) 分析を用いることで、量子力学的測定の内在的非決定論的(「ランダム」)な性質から生じる非常に複雑なスケーリングの挙動を示す。
三重項イジングの場合
a) 発見する
i) 測定された基底状態におけるエネルギー及びスピン相関の多フラクタルスケーリング挙動であって、独立臨界指数の無限の階層に対応し、等しく、これらの相関関係に対する普遍スケーリング指数の連続体。
(二)相関関数にパワーローを乗じる対数因子の存在、すなわち「対数共形場理論」(CFT)の目印。
(iii):$c^{({\rm eff})}_n$は、測定されていない臨界基底状態とは対照的に、異なる$n$で互いに独立な$n$th R\'enyiエントロピーのサブシステムサイズ対数のプレファクタである。
(iv): 測度レコードのシャノンエントロピーのシステムサイズの独立部分と、ここで明示的に計算された1ループ順序に関連することを示す普遍的(Affleck-Ludwig)「有効境界エントロピー」$S_{\rm{eff}}$。
-これらの結果のサブセットは、臨界イジング事件における測定支配臨界点に対する$\epsilon$拡張においても得られている。
(b)
We consider the effects of weak measurements on the quantum critical ground state of the one-dimensional (a) tricritical and (b) critical quantum Ising model, by measuring in (a) the local energy and in (b) the local spin operator in a lattice formulation. By employing a controlled renormalization group (RG) analysis we find that each problem exhibits highly complex novel scaling behavior, arising from the intrinsically indeterministic ('random') nature of quantum mechanical measurements, which is governed by a measurement-dominated RG fixed point that we study within an $\epsilon$ expansion. In the tricritical Ising case (a) we find (i): multifractal scaling behavior of energy and spin correlations in the measured groundstate, corresponding to an infinite hierarchy of independent critical exponents and, equivalently, to a continuum of universal scaling exponents for each of these correlations; (ii): the presence of logarithmic factors multiplying powerlaws in correlation functions, a hallmark of 'logarithmic conformal field theories' (CFT); (iii): universal 'effective central charges' $c^{({\rm eff})}_n$ for the prefactors of the logarithm of subsystem size of the $n$th R\'enyi entropies, which are independent of each other for different $n$, in contrast to the unmeasured critical ground state, and (iv): a universal ("Affleck-Ludwig") 'effective boundary entropy' $S_{\rm{eff}}$ which we show, quite generally, to be related to the system-size independent part of the Shannon entropy of the measurement record, computed explicitly here to 1-loop order. - A subset of these results have so-far also been obtained within the $\epsilon$ expansion for the measurement-dominated critical point in the critical Ising case (b). | 翻訳日:2024-09-06 00:04:31 公開日:2024-09-03 |
# ディープラーニング時代の画像と映像の影検出・削除・生成に関する調査
Unveiling Deep Shadows: A Survey on Image and Video Shadow Detection, Removal, and Generation in the Era of Deep Learning ( http://arxiv.org/abs/2409.02108v1 ) ライセンス: Link先を確認 | Xiaowei Hu, Zhenghao Xing, Tianyu Wang, Chi-Wing Fu, Pheng-Ann Heng, | (参考訳) 光が障害物に遭遇すると影が形成され、照度が低下する。
コンピュータビジョンにおいて、影の検出、削除、生成はシーン理解の強化、画質の改善、映像編集における視覚的一貫性の確保、仮想環境の改善に不可欠である。
本稿では,過去10年間の深層学習環境における画像や映像の影の検出,削除,生成に関する総合的な調査を行い,課題,深層モデル,データセット,評価指標について紹介する。
我々の重要な貢献は、シャドー分析の総合的な調査、実験的な比較の標準化、モデルサイズ、速度、性能の関係の探索、データセット間の一般化研究、オープン問題と今後の方向性の特定、さらなる研究を支援するための公開リソースの提供である。
Shadows are formed when light encounters obstacles, leading to areas of diminished illumination. In computer vision, shadow detection, removal, and generation are crucial for enhancing scene understanding, refining image quality, ensuring visual consistency in video editing, and improving virtual environments. This paper presents a comprehensive survey of shadow detection, removal, and generation in images and videos within the deep learning landscape over the past decade, covering tasks, deep models, datasets, and evaluation metrics. Our key contributions include a comprehensive survey of shadow analysis, standardization of experimental comparisons, exploration of the relationships among model size, speed, and performance, a cross-dataset generalization study, identification of open issues and future directions, and provision of publicly available resources to support further research. | 翻訳日:2024-09-05 23:53:09 公開日:2024-09-03 |
# 中規模量子系におけるノイズのコヒーレンスの推定
Estimating the coherence of noise in mid-scale quantum systems ( http://arxiv.org/abs/2409.02110v1 ) ライセンス: Link先を確認 | Pedro Figueroa-Romero, Miha Papič, Adrian Auer, Inés de Vega, | (参考訳) 量子コンピュータのパワーは指数関数的に上昇することが一般的に認識されているが、一般に量子ノイズ機構の複雑さはより速く増加すると見過ごされることが多い。
特に、量子プロセッサ上の命令がユニタリに近いかどうかを定量化することは、エラー率、例えば、その推定に対する信頼度、効率的にそれらを緩和する能力、またはエラー修正におけるフォールトトレランスしきい値との関係について重要な結果をもたらす。
しかしながら、ノイズのコヒーレンス(ユニタリティ)を推定する複雑さは、一般にシステムサイズで指数関数的にスケールする。
ここでは、パウリ雑音の平均ユニタリティの上限を求め、デジタル量子デバイスにおける演算の平均ユニタリティを効率よく、かつ、中規模量子システムに対して確実に推定できるプロトコルを開発する。
5量子ビットの超伝導量子コンピュータであるIQM Spark(TM)と最大10量子ビットのシミュレーションの両方で実験を行い、この手法を任意のスケールに拡張する可能性について論じる。
While the power of quantum computers is commonly acknowledged to rise exponentially, it is often overlooked that the complexity of quantum noise mechanisms generally grows much faster. In particular, quantifying whether the instructions on a quantum processor are close to being unitary has important consequences concerning error rates, e.g., for the confidence in their estimation, the ability to mitigate them efficiently, or their relation to fault-tolerance thresholds in error correction. However, the complexity of estimating the coherence, or unitarity, of noise generally scales exponentially in system size. Here, we obtain an upper bound on the average unitarity of Pauli noise and develop a protocol allowing us to estimate the average unitarity of operations in a digital quantum device efficiently and feasibly for mid-size quantum systems. We demonstrate our results through both experimental execution on IQM Spark (TM), a 5-qubit superconducting quantum computer, and in simulation with up to 10 qubits, discussing the prospects for extending our technique to arbitrary scales. | 翻訳日:2024-09-05 23:53:09 公開日:2024-09-03 |
# ディラックモノポール理論とベリー幾何学相について
Note on Dirac monopole theory and Berry geometric phase ( http://arxiv.org/abs/2409.02144v1 ) ライセンス: Link先を確認 | Li-Chen Zhao, | (参考訳) ディラック単極理論とベリー幾何学相の本質的な関係について論じる。
終端を持つディラック弦の存在は、パラメータ空間に非可積分位相因子をもたらすことを実証する。
ディラック弦と波動関数の終点を固有状態に基づいて視覚化する最も単純な2モードハミルトンモデルを選択する。
任意の円の周りの幾何学的位相変化は、よく知られたベリー接続と曲率をパラメータ空間でディラック単極理論を実行することによって直接引き出すことができるディラックの図に従えば明確に計算することができる。
ディラック弦の終点と固有値の事故発生点との対応は、エルミート系に対して明確に示される。
これらの結果は、ベリー位相をパラメータ空間の終点を持つディラック弦によって誘導される非可積分位相因子と見なすことができ、ディラック単極理論を実行または拡張することによって幾何学的位相の研究を動機付けることを示唆している。
We discuss the intrinsic relations between Dirac monopole theory and Berry geometric phases. We demonstrate that the existence of Dirac strings with endpoints brings non-integrable phase factors in the parameters space. We choose one of the simplest two-mode Hamilton model to visualize Dirac string and its endpoint of a wave function, based on its eigenstates. The geometric phase variation around an arbitrary circle can be calculated explicitly according to Dirac's picture, where the well-known Berry connection and curvature can be derived directly by performing Dirac monopole theory in the parameters space. The correspondence between the endpoints of Dirac strings and the accident degenerated points of eigenvalues are clearly shown for the Hermitian systems. These results suggest that Berry phase can be seen as the non-integrable phase factor induced by Dirac strings with endpoints in the parameters space, and would motivate more studies on geometric phase by performing or extending Dirac monopole theory. | 翻訳日:2024-09-05 21:50:21 公開日:2024-09-03 |
# がん生存リスク予測のためのマルチモーダルオブジェクトレベルのコントラスト学習法
A Multimodal Object-level Contrast Learning Method for Cancer Survival Risk Prediction ( http://arxiv.org/abs/2409.02145v1 ) ライセンス: Link先を確認 | Zekang Yang, Hong Liu, Xiangdong Wang, | (参考訳) コンピュータ支援によるがん生存予測は、患者のタイムリーな治療において重要な役割を担っている。
これは、病理画像やゲノムデータなど、複数の臨床要因にかかわる、弱い監督された順序回帰課題である。
本稿では,癌生存リスク予測のための新しいトレーニング手法であるマルチモーダルオブジェクトレベルのコントラスト学習を提案する。
まず,トレーニングサンプルセット内のサンプル間の生存リスク関係に基づいて,コントラスト学習ペアを構築した。
次に、オブジェクトレベルのコントラスト学習手法を導入し、生存リスク予測器を訓練する。
クロスモーダルコンストラストを適用することで、さらにマルチモーダルシナリオに拡張する。
病理画像とゲノミクスデータの異質性を考慮すると,注意に基づく神経ネットワークと自己正規化に基づく神経ネットワークを用いたマルチモーダル生存リスク予測器を構築する。
最後に,本手法により訓練された生存リスク予測器は,生存リスク予測のための2つの公共マルチモーダル癌データセットにおいて,最先端の手法よりも優れていた。
Computer-aided cancer survival risk prediction plays an important role in the timely treatment of patients. This is a challenging weakly supervised ordinal regression task associated with multiple clinical factors involved such as pathological images, genomic data and etc. In this paper, we propose a new training method, multimodal object-level contrast learning, for cancer survival risk prediction. First, we construct contrast learning pairs based on the survival risk relationship among the samples in the training sample set. Then we introduce the object-level contrast learning method to train the survival risk predictor. We further extend it to the multimodal scenario by applying cross-modal constrast. Considering the heterogeneity of pathological images and genomics data, we construct a multimodal survival risk predictor employing attention-based and self-normalizing based nerural network respectively. Finally, the survival risk predictor trained by our proposed method outperforms state-of-the-art methods on two public multimodal cancer datasets for survival risk prediction. | 翻訳日:2024-09-05 21:50:21 公開日:2024-09-03 |
# スパイクニューラルネットワークを用いたリモートセンシングのための脳誘発オンライン適応
Brain-Inspired Online Adaptation for Remote Sensing with Spiking Neural Network ( http://arxiv.org/abs/2409.02146v1 ) ライセンス: Link先を確認 | Dexin Duan, Peilin liu, Fei Wen, | (参考訳) デバイス上でのコンピューティング(エッジコンピューティング)は、特に軌道上の衛星や無人航空機(UAV)におけるディープネットワークベースの認識のようなアプリケーションにおいて、リモートセンシングにおいてますます重要になっている。
これらのシナリオでは、(1)高エネルギー効率で、限られた計算資源を持つエッジデバイス上でモデルを動作させ、(2)オンライン適応により、モデルが環境の変化、天候変化、センサードリフトに迅速に適応できるようにするという2つの脳のような能力がリモートセンシングモデルにとって重要である。
この研究は、リモートセンシングのためのスパイクニューラルネットワーク(SNN)に基づくオンライン適応フレームワークを提案することで、これらのニーズに対処する。
事前訓練されたSNNモデルから、BPTTアルゴリズムを近似した効率的な教師なしオンライン適応アルゴリズムを設計し、SNN適応学習の計算複雑性を著しく低減するフォワード・イン・タイム計算のみを含む。
さらに,オンラインSNN適応性能を向上させるための適応型アクティベーションスケーリング手法を提案する。
さらに、より困難なリモートセンシング検出タスクに対して、検出タスクの適応性能を大幅に改善する信頼性に基づくインスタンス重み付け方式を提案する。
我々の知る限り、この研究はSNNのオンライン適応に最初に取り組むものである。
分類,セグメンテーション,検出タスクにまたがる7つのベンチマークデータセットの大規模な実験により,提案手法は,気象条件の異なる領域適応と領域一般化のアプローチを著しく上回ることを示した。
提案手法は、エッジデバイス上でのエネルギー効率と高速なオンライン適応を実現するとともに、軌道上の衛星やUAVにおけるリモートセンシングなどの応用に大きな可能性を秘めている。
On-device computing, or edge computing, is becoming increasingly important for remote sensing, particularly in applications like deep network-based perception on on-orbit satellites and unmanned aerial vehicles (UAVs). In these scenarios, two brain-like capabilities are crucial for remote sensing models: (1) high energy efficiency, allowing the model to operate on edge devices with limited computing resources, and (2) online adaptation, enabling the model to quickly adapt to environmental variations, weather changes, and sensor drift. This work addresses these needs by proposing an online adaptation framework based on spiking neural networks (SNNs) for remote sensing. Starting with a pretrained SNN model, we design an efficient, unsupervised online adaptation algorithm, which adopts an approximation of the BPTT algorithm and only involves forward-in-time computation that significantly reduces the computational complexity of SNN adaptation learning. Besides, we propose an adaptive activation scaling scheme to boost online SNN adaptation performance, particularly in low time-steps. Furthermore, for the more challenging remote sensing detection task, we propose a confidence-based instance weighting scheme, which substantially improves adaptation performance in the detection task. To our knowledge, this work is the first to address the online adaptation of SNNs. Extensive experiments on seven benchmark datasets across classification, segmentation, and detection tasks demonstrate that our proposed method significantly outperforms existing domain adaptation and domain generalization approaches under varying weather conditions. The proposed method enables energy-efficient and fast online adaptation on edge devices, and has much potential in applications such as remote perception on on-orbit satellites and UAV. | 翻訳日:2024-09-05 21:50:21 公開日:2024-09-03 |
# 基礎モデルを用いた最適電力グリッド運用
Optimal Power Grid Operations with Foundation Models ( http://arxiv.org/abs/2409.02148v1 ) ライセンス: Link先を確認 | Alban Puech, Jonas Weiss, Thomas Brunschwiler, Hendrik F. Hamann, | (参考訳) 気候変動に対処するために重要なエネルギー移行は、多くの分散型再生可能エネルギー源を既存のグリッドに統合することを要求する。
気候変動や消費者の行動の変化とともに、これは世代や負荷パターンの変化と変動をもたらし、グリッド計画や運用にかなりの複雑さと不確実性をもたらす。
業界はすでに、確立されたグリッドシミュレーションツールの計算上の課題を克服するためにAIを活用し始めていますが、我々は、さまざまな下流タスクで不利用可能なグリッドデータを効率的に活用し、グリッド操作を強化するために、AI Foundation Models(FM)とGraph Neural Networksの進歩を提案しています。
グリッドの基盤となる物理を捉えるために、電力流力学を学習する自己教師型モデルの構築は、電力グリッドのためのFMを開発するための重要な第一歩であると信じている。
このアプローチが、業界のニーズと現在のグリッド分析能力のギャップを埋めて、業界を最適なグリッド運用と計画に近づける方法を示します。
The energy transition, crucial for tackling the climate crisis, demands integrating numerous distributed, renewable energy sources into existing grids. Along with climate change and consumer behavioral changes, this leads to changes and variability in generation and load patterns, introducing significant complexity and uncertainty into grid planning and operations. While the industry has already started to exploit AI to overcome computational challenges of established grid simulation tools, we propose the use of AI Foundation Models (FMs) and advances in Graph Neural Networks to efficiently exploit poorly available grid data for different downstream tasks, enhancing grid operations. For capturing the grid's underlying physics, we believe that building a self-supervised model learning the power flow dynamics is a critical first step towards developing an FM for the power grid. We show how this approach may close the gap between the industry needs and current grid analysis capabilities, to bring the industry closer to optimal grid operation and planning. | 翻訳日:2024-09-05 21:50:21 公開日:2024-09-03 |
# 細胞培養プロセスの性能予測とモニタリングのためのアンサンブル学習とモンテカルロサンプリングを用いた不確実性定量化
Uncertainty Quantification Using Ensemble Learning and Monte Carlo Sampling for Performance Prediction and Monitoring in Cell Culture Processes ( http://arxiv.org/abs/2409.02149v1 ) ライセンス: Link先を確認 | Thanh Tung Khuat, Robert Bassett, Ellen Otte, Bogdan Gabrys, | (参考訳) 生薬製品、特にモノクローナル抗体(mAbs)は、その特異性や有効性から、医薬品市場において顕著である。
これらの製品は、世界の製薬販売のかなりの部分を占めると予測されているため、mAbの開発・製造における機械学習モデルの適用が勢いを増している。
本稿では,機械学習予測における不確実性定量化の必要性,特に訓練データに制限のあるシナリオについて論じる。
本手法では,アンサンブル学習とモンテカルロシミュレーションを応用し,モデルのロバスト性を高めるために追加の入力サンプルを生成する。
我々は,Raman spectraデータを用いたバイオリアクター実行時のグルコース濃度の事前測定とリアルタイムモニタリングの2つのケーススタディにより,本手法の有効性を検証した。
本研究は, プロセス性能予測に関連する不確実性レベルを推定し, バイオ医薬品製造におけるリアルタイム意思決定を容易にする手法の有効性を実証するものである。
この貢献は、不確実性定量化のための新しいアプローチを導入するだけでなく、バイオプロセス開発における小さなトレーニングデータセットによってもたらされる課題を克服するための洞察を提供する。
本評価は, 上流細胞培養における不確実性評価に関わる重要な課題に対処する上での本手法の有効性を実証し, バイオ医薬品の動的分野におけるプロセス制御と製品品質の向上に対するその潜在的影響を示唆するものである。
Biopharmaceutical products, particularly monoclonal antibodies (mAbs), have gained prominence in the pharmaceutical market due to their high specificity and efficacy. As these products are projected to constitute a substantial portion of global pharmaceutical sales, the application of machine learning models in mAb development and manufacturing is gaining momentum. This paper addresses the critical need for uncertainty quantification in machine learning predictions, particularly in scenarios with limited training data. Leveraging ensemble learning and Monte Carlo simulations, our proposed method generates additional input samples to enhance the robustness of the model in small training datasets. We evaluate the efficacy of our approach through two case studies: predicting antibody concentrations in advance and real-time monitoring of glucose concentrations during bioreactor runs using Raman spectra data. Our findings demonstrate the effectiveness of the proposed method in estimating the uncertainty levels associated with process performance predictions and facilitating real-time decision-making in biopharmaceutical manufacturing. This contribution not only introduces a novel approach for uncertainty quantification but also provides insights into overcoming challenges posed by small training datasets in bioprocess development. The evaluation demonstrates the effectiveness of our method in addressing key challenges related to uncertainty estimation within upstream cell cultivation, illustrating its potential impact on enhancing process control and product quality in the dynamic field of biopharmaceuticals. | 翻訳日:2024-09-05 21:50:21 公開日:2024-09-03 |
# Hazardous Asteroids 分類
Hazardous Asteroids Classification ( http://arxiv.org/abs/2409.02150v1 ) ライセンス: Link先を確認 | Thai Duy Quy, Alvin Buana, Josh Lee, Rakha Asyrofi, | (参考訳) 地球に落下する小惑星が社会に大きな影響を与える可能性があるため、人類にとって有害な小惑星が懸念されている。これらの天体の観測は将来の衝突の予測に役立つ可能性があるが、地球近傍を通り抜ける大量の天体によって妨げられている。
このプロジェクトの目的は、マシンラーニングとディープラーニングを使用して、有害な小惑星を正確に分類することである。
5つの機械学習アルゴリズムと5つのディープラーニングモデルからなる計10の手法が訓練され、その問題を解決する適切なモデルを見つけるために評価される。
私たちはKaggleとNeoWSという、地球近傍小惑星に関する情報を提供するNASAのRESTful Webサービスから抽出した2つのデータセットを実験し、毎日更新しています。
全体として、モデルは異なる特徴を持つ2つのデータセットでテストされ、分類を行うための最も正確なモデルを見つける。
Hazardous asteroid has been one of the concerns for humankind as fallen asteroid on earth could cost a huge impact on the society.Monitoring these objects could help predict future impact events, but such efforts are hindered by the large numbers of objects that pass in the Earth's vicinity. The aim of this project is to use machine learning and deep learning to accurately classify hazardous asteroids. A total of ten methods which consist of five machine learning algorithms and five deep learning models are trained and evaluated to find the suitable model that solves the issue. We experiment on two datasets, one from Kaggle and one we extracted from a web service called NeoWS which is a RESTful web service from NASA that provides information about near earth asteroids, it updates every day. In overall, the model is tested on two datasets with different features to find the most accurate model to perform the classification. | 翻訳日:2024-09-05 21:39:27 公開日:2024-09-03 |
# フェアレールネットワークの設計
Fair Railway Network Design ( http://arxiv.org/abs/2409.02152v1 ) ライセンス: Link先を確認 | Zixu He, Sirin Botan, Jérôme Lang, Abdallah Saffidine, Florian Sikora, Silas Workman, | (参考訳) ある国で公共交通ネットワークを設計する際には、住民の移動時間の総和を最小化したいかもしれない。
これは純粋に実用主義的な見方に対応しており、結果として得られるネットワークは首都や大都市に利益をもたらすが、周辺都市は残されている。
一方、より平等主義的な見方では、一部の人々は中心都市を通り抜けることなく周辺都市を旅することができる。
モデルを定義し,実データに基づく実験を報告する。
When designing a public transportation network in a country, one may want to minimise the sum of travel duration of all inhabitants. This corresponds to a purely utilitarian view and does not involve any fairness consideration, as the resulting network will typically benefit the capital city and/or large central cities while leaving some peripheral cities behind. On the other hand, a more egalitarian view will allow some people to travel between peripheral cities without having to go through a central city. We define a model, propose algorithms for computing solution networks, and report on experiments based on real data. | 翻訳日:2024-09-05 21:39:27 公開日:2024-09-03 |
# Comoving Computer Acceleration (COCA):エミュレートされた参照フレームにおける$N$bodyシミュレーション
COmoving Computer Acceleration (COCA): $N$-body simulations in an emulated frame of reference ( http://arxiv.org/abs/2409.02154v1 ) ライセンス: Link先を確認 | Deaglan J. Bartlett, Marco Chiarenza, Ludvig Doeser, Florent Leclercq, | (参考訳) N$bodyシミュレーションは計算コストが高く、機械学習(ML)ベースのエミュレーション技術がスピード向上の手段として登場した。
高速ではあるが、サロゲートモデルは、現在のアプローチでは修正できない重大なエミュレーションエラーのため、信頼性が制限される。
この問題を軽減するために,MLとN$bodyシミュレータを併用したハイブリッドフレームワークであるComoving Computer Acceleration (COCA)を導入する。
正確な運動方程式は、基準のエミュレートされたフレームで解き、任意のエミュレーション誤差を設計によって補正する。
このアプローチは、完全な解を得るよりも計算的に安価であるが、力評価の数が増えるにつれて真理に収束することが保証される機械リアラント解のまわりの粒子軌道の摂動の解に対応する。
任意のMLアルゴリズムや$N$bodyシミュレータに適用できるが、畳み込みニューラルネットワークによって予測される参照フレームにおける粒子・メシュ宇宙学シミュレーションの特定の場合において、ネットワークへの追加入力パラメータとして時間依存が符号化される。
COCAは、粒子軌道におけるエミュレーション誤差を効率的に低減し、MLなしで対応するシミュレーションを実行するよりもはるかに少ない力評価を必要とする。
計算予算の削減のために, 精度の高い最終密度と速度場を得る。
本手法は,トレーニングデータの範囲外に適用した場合のロバスト性を示す。
同じ訓練資源を用いたラグランジアン変位場の直接エミュレーションと比較すると、COCAのエミュレーション誤差を補正する能力はより正確な予測をもたらす。
COCAは、不必要な力の評価をスキップしながら、正しい動作方程式を解き、MLによるエミュレーションエラーを補正することで、N$bodyシミュレーションを安くする。
$N$-body simulations are computationally expensive, so machine-learning (ML)-based emulation techniques have emerged as a way to increase their speed. Although fast, surrogate models have limited trustworthiness due to potentially substantial emulation errors that current approaches cannot correct for. To alleviate this problem, we introduce COmoving Computer Acceleration (COCA), a hybrid framework interfacing ML with an $N$-body simulator. The correct physical equations of motion are solved in an emulated frame of reference, so that any emulation error is corrected by design. This approach corresponds to solving for the perturbation of particle trajectories around the machine-learnt solution, which is computationally cheaper than obtaining the full solution, yet is guaranteed to converge to the truth as one increases the number of force evaluations. Although applicable to any ML algorithm and $N$-body simulator, this approach is assessed in the particular case of particle-mesh cosmological simulations in a frame of reference predicted by a convolutional neural network, where the time dependence is encoded as an additional input parameter to the network. COCA efficiently reduces emulation errors in particle trajectories, requiring far fewer force evaluations than running the corresponding simulation without ML. We obtain accurate final density and velocity fields for a reduced computational budget. We demonstrate that this method shows robustness when applied to examples outside the range of the training data. When compared to the direct emulation of the Lagrangian displacement field using the same training resources, COCA's ability to correct emulation errors results in more accurate predictions. COCA makes $N$-body simulations cheaper by skipping unnecessary force evaluations, while still solving the correct equations of motion and correcting for emulation errors made by ML. | 翻訳日:2024-09-05 21:39:27 公開日:2024-09-03 |
# 長距離非フラストレーション反強磁性イジング鎖における1次および2次量子相転移
First- and second-order quantum phase transitions in the long-range unfrustrated antiferromagnetic Ising chain ( http://arxiv.org/abs/2409.02165v1 ) ライセンス: Link先を確認 | Víctor Herráiz-López, Sebastián Roca-Jerat, Manuel Gallego, Ramón Ferrández, Jesús Carrete, David Zueco, Juan Román-Roche, | (参考訳) 反強磁性イジング鎖の非フラストレーション状態の位相図を,全方向から最近傍まで,相互作用の全範囲の縦方向および横方向の磁場を用いて検討した。
まず、このモデルに対して平均場処理が正確であることを確認し、強い長距離状態において解析的にモデルを解く。
次数パラメータと相関関係を計算し、そのモデルが第1次から第2次へと位相遷移が変化する三臨界点を示すことを示す。
これは、相転移が第2次であることが知られている最も近い隣の極限とは対照的である。
位相遷移の順序が1つの極限からもう1つの極限にどのように変化するかを理解するために、ニューラルネットワークベースのアンサッツを用いた変分量子モンテカルロ法を用いて解析的に抽出可能な相互作用範囲を数値的に扱う。
本稿では,一階相転移が相互作用範囲の減少に伴ってどのように縮小するかを示し,一階相転移が存在する相互作用範囲における近似境界を確立する。
最後に, 第一次相転移と三臨界点を安定化させる鍵となる要素は, 異なるサブ格子のスピン間の反強磁性相互作用の上に, 同じサブ格子のスピン間の強磁性相互作用の存在であることを示す。
可変レンジ非フラストレーション反強磁性相互作用は、そのような停滞した相互作用を実装するための1つの方法である。
We study the ground-state phase diagram of an unfrustrated antiferromagnetic Ising chain with longitudinal and transverse fields in the full range of interactions: from all-to-all to nearest-neighbors. First, we solve the model analytically in the strong long-range regime, confirming in the process that a mean-field treatment is exact for this model. We compute the order parameter and the correlations and show that the model exhibits a tricritical point where the phase transition changes from first to second order. This is in contrast with the nearest-neighbor limit where the phase transition is known to be second order. To understand how the order of the phase transition changes from one limit to the other, we tackle the analytically-intractable interaction ranges numerically, using a variational quantum Monte Carlo method with a neural-network-based ansatz, the visual transformer. We show how the first-order phase transition shrinks with decreasing interaction range and establish approximate boundaries in the interaction range for which the first-order phase transition is present. Finally, we establish that the key ingredient to stabilize a first-order phase transition and a tricritical point is the presence of ferromagnetic interactions between spins of the same sublattice on top of antiferromagnetic interactions between spins of different sublattices. Tunable-range unfrustrated antiferromagnetic interactions are just one way to implement such staggered interactions. | 翻訳日:2024-09-05 21:39:27 公開日:2024-09-03 |
# モニタリングされたキタエフ回路における絡み合いのダイナミクス:ループモデル、対称性分類、量子リフシッツスケーリング
Entanglement dynamics in monitored Kitaev circuits: loop models, symmetry classification, and quantum Lifshitz scaling ( http://arxiv.org/abs/2409.02171v1 ) ライセンス: Link先を確認 | Kai Klocke, Daniel Simm, Guo-Yi Zhu, Simon Trebst, Michael Buchhold, | (参考訳) 量子回路は、デジタル量子力学をシミュレートし、非平衡量子物質の新しい状態を明らかにするための汎用的なプラットフォームを提供する。
主な例として、監視回路における非単体ダイナミクスから生じる測定誘起相転移がある。
ジェネリック回路におけるダイナミクスの包括的理解はまだ進化途上であるが、監視された量子回路は、ハミルトン基底状態相と同様に、対称性と空間次元に基づいて分類できる、動的物質のロバストな位相を生じると我々は主張する。
この概念を説明するために, 対称性クラス BDI と D 内の量子回路に着目した。これは, 時間反転の有無にかかわらず粒子-ホール対称マヨナフェルミオンを具現化した, パラダイム的北エフモデルとヤオ・キベルソンモデルの計測専用適応である。
両対称性クラスのための一般フレームワークであるマヨラナループモデルを構築し、これらの回路における絡み合い力学の現象論へのアクセスを提供し、局所化されたマヨラナループの領域法則位相と非局在化された高絡み合いのマヨラナ液相の両方を示す。
2つの相は、2つの異なる普遍性クラスの臨界指数を持つにもかかわらず、量子リフシッツスケーリングを示す連続遷移によって分離される。
ループモデルフレームワークは、非線形シグマモデルの観点からこれらの普遍性クラスの分析的理解を提供するだけでなく、最大10^8$ qubitsで過大な回路をシミュレートできる高効率な数値技術も提供する。
この枠組みを用いて、2つの対称性クラスの交叉位相と臨界点の両方を区別する普遍的なプローブを正確に決定する。
そこで本研究は,創発回路相とその相転移の概念をさらに固めるものである。
Quantum circuits offer a versatile platform for simulating digital quantum dynamics and uncovering novel states of non-equilibrium quantum matter. One principal example are measurement-induced phase transitions arising from non-unitary dynamics in monitored circuits, which employ mid-circuit measurements as an essential building block next to standard unitary gates. Although a comprehensive understanding of dynamics in generic circuits is still evolving, we contend that monitored quantum circuits yield robust phases of dynamic matter, which -- akin to Hamiltonian ground state phases -- can be categorized based on symmetries and spatial dimensionality. To illustrate this concept, we focus on quantum circuits within symmetry classes BDI and D, which are measurement-only adaptations of the paradigmatic Kitaev and Yao-Kivelson models, embodying particle-hole-symmetric Majorana fermions with or without time-reversal. We establish a general framework -- Majorana loop models -- for both symmetry classes to provide access to the phenomenology of the entanglement dynamics in these circuits, displaying both an area-law phase of localized Majorana loops and a delocalized, highly entangled Majorana liquid phase. The two phases are separated by a continuous transition displaying quantum Lifshitz scaling, albeit with critical exponents of two distinct universality classes. The loop model framework provides not only analytical understanding of these universality classes in terms of non-linear sigma models, but also allows for highly efficient numerical techniques capable of simulating excessively large circuits with up to $10^8$ qubits. We utilize this framework to accurately determine universal probes that distinguish both the entangled phases and the critical points of the two symmetry classes. Our work thereby further solidifies the concept of emergent circuit phases and their phase transitions. | 翻訳日:2024-09-05 21:39:27 公開日:2024-09-03 |
# ボゾン量子ハードウェア上でのフェルミオン冷却によるキラル状態の効率的調製
Efficiently preparing chiral states via fermionic cooling on bosonic quantum hardware ( http://arxiv.org/abs/2409.02177v1 ) ライセンス: Link先を確認 | Gilad Kishony, Mark S. Rudner, Erez Berg, | (参考訳) 雑音型ボゾン量子シミュレータ上で任意のフェルミオンハミルトニアンの低エネルギー状態を作成するための効率的なプロトコルを提案する。
この手順では、ターゲットシステムと模擬浴を結合して断熱冷却を行う。
浴室はシステムからエントロピーを抽出するために定期的に監視される。
模擬標的系と浴を共にフェミオン化することにより,各系のフェミオン励起を連続的に浴場にホップさせる。
このようにして、ハードウェアの自由度で非局所的であるにもかかわらず、これらの励起の密度に線形に比例した冷却率を達成する。
特に,北エブハニカムモデルのキラル(非アベリア)相などの位相位相は,このプロトコルを用いて効率的に生成可能であることを示す。
我々のプロトコルはノイズの存在下で良好に動作し、短期量子デバイス上での実行に適している。
We propose an efficient protocol for preparing low energy states of arbitrary fermionic Hamiltonians on a noisy bosonic quantum simulator. This procedure involves performing adiabatic cooling by coupling the target system with a simulated bath. The bath is periodically monitored in order to extract entropy from the system. By fermionizing the simulated target system and the bath together, we allow individual fermionic excitations of the system to coherently hop to the bath sites. In this way, we achieve a cooling rate linearly proportional to the density of these excitations, despite the fact that they are non-local in terms of the bosonic degrees of freedom of the hardware. In particular, we show that certain topological phases, such as the chiral (non-Abelian) phase of the Kitaev honeycomb model can be prepared efficiently using our protocol. We find that our protocol performs favorably in the presence of noise, making it suitable for execution on near-term quantum devices. | 翻訳日:2024-09-05 21:39:27 公開日:2024-09-03 |
# ダイヤモンド被覆正方格子上のスピン-1/2ハイゼンベルク模型の微視的縮退四量体-二量体相の熱力学特性
Thermodynamic properties of the macroscopically degenerate tetramer-dimer phase of the spin-1/2 Heisenberg model on the diamond-decorated square lattice ( http://arxiv.org/abs/2409.02183v1 ) ライセンス: Link先を確認 | Katarina Karlova, Andreas Honecker, Nils Caci, Stefan Wessel, Jozef Strecka, Taras Verkholyak, | (参考訳) 磁性体の存在下でのダイヤモンド被覆正方格子上のスピン-1/2ハイゼンベルク反強磁性体は、自明な飽和状態に加えて、リーブ-マティスフェライト磁性体、ジマー-テトラマー、モノマー-二量体、スピン-カント相などの様々な量子相を示す。
このモデルの熱力学特性は、40スピンの系への正確な対角化、有効モノマー-二量体記述、最大180スピンの符号プロブレムフリー量子モンテカルロシミュレーション、デカップリング近似など、いくつかの相補的解析的および数値的手法を用いて研究されている。
特に,二量体-テトラマー相を優先するパラメータ領域に注目した。
この基底状態は正方格子上の古典的なハードダイマーモデルで表すことができ、磁場下においてもマクロな縮退性を保持する。
しかし、マクロ的に縮退した二量体-テトラマーと非縮退した単量体-二量体相の境界に近い低温熱力学の記述は、拡張された古典的な単量体-二量体格子-ガスモデルを必要とする。
二量体-テトラマー相近傍で生じる異常熱力学特性を詳細に研究した。
アディアバティック・デマグネット化の下では、ゼロ磁場で二量体-テトラマー基底状態に達すると、効率的な冷却を絶対零温度まで促進する強磁場効果を検出する。
The spin-1/2 Heisenberg antiferromagnet on the diamond-decorated square lattice in the presence of a magnetic field displays various quantum phases including the Lieb-Mattis ferrimagnetic, dimer-tetramer, monomer-dimer, and spin-canted phases, in addition to the trivial fully saturated state. Thermodynamic properties of this model are investigated using several complementary analytical and numerical methods such as exact diagonalization up to the systems of 40 spins, an effective monomer-dimer description, sign-problem-free quantum Monte Carlo simulations for up to 180 spins, and a decoupling approximation. Our particular attention is focused on the parameter region favoring the dimer-tetramer phase. This ground state can be represented by a classical hard-dimer model on the square lattice and retains a macroscopic degeneracy even under a magnetic field. However, the description of the low-temperature thermodynamics close to the boundary between the macroscopically degenerate dimer-tetramer and the non-degenerate monomer-dimer phases requires an extended classical monomer-dimer lattice-gas model. Anomalous thermodynamic properties emerging in the vicinity of the dimer-tetramer phase are studied in detail. Under the adiabatic demagnetization we detect an enhanced magnetocaloric effect promoting an efficient cooling to absolute zero temperature, provided that the system reaches the dimer-tetramer ground state at zero field. | 翻訳日:2024-09-05 21:39:27 公開日:2024-09-03 |
# 多体局在遷移における状態依存スプレッド複雑度ダイナミクス
State Dependent Spread Complexity Dynamics in Many-Body Localization Transition ( http://arxiv.org/abs/2409.02186v1 ) ライセンス: Link先を確認 | Maitri Ganguli, Aneek Jana, | (参考訳) 初期状態から始まるクリロフ空間における拡散複雑性と逆参加比のダイナミクスを用いて,Multi-Body Localization (MBL) 相転移を特徴づける。
熱場二重状態 (TFD) における前飽和ピークの遷移から, エルゴード-MBL遷移が決定できることを示す。
一方、初期順序状態や少数の状態の重ね合わせが選択された場合、拡散複雑性の飽和値とKrylov逆参加比(KIPR)は、積分可能な位相とエルゴード位相を区別することができ、積分可能な位相の間に鋭い差はない。
興味深いことに、障害のない可積分相とMBL可積分相の区別は、ユニタリと直交のハールアンサンブルから選択されたランダム状態の拡散複雑性研究によって確立される。
また,システムと浴槽の結合による複雑性のダイナミクスについても検討した。
KIPRの伸張指数的崩壊は、MBL系が浴槽に接続されているときに観測され、早期に崩壊が始まり、環境劣化の大きい値が得られた。
我々の研究は、量子多体系における相転移の理解におけるクリロフ空間力学の有効性に光を当てている。
We characterize the Many-Body Localization (MBL) phase transition using the dynamics of spread complexity and inverse participation ratio in the Krylov space starting from different initial states. Our analysis of the disordered Heisenberg spin-1/2 chain unravels that the ergodic-to-MBL transition can be determined from the transition of the pre-saturation peak in the thermofield double state (TFD) spread complexity. On the other hand, if an initially ordered state or a superposition of a small number of such states is chosen, then the saturation value of spread complexity and Krylov inverse participation ratio (KIPR) can distinguish the ergodic phase from the integrable phases, with no sharp difference between the integrable phases. Interestingly, the distinction between the disorder-free integrable and the MBL integrable phase is established by the spread complexity study of random states chosen from unitary and orthogonal Haar ensembles. We also study the complexity dynamics by coupling the system to a bath, which shows distinctive profiles in different phases. A stretched exponential decay of KIPR is observed when the MBL system is connected to the bath, with the decay starting at an earlier time for a greater value of environmental dephasing. Our work sheds light on the efficacy of Krylov space dynamics in understanding phase transitions in quantum many-body systems. | 翻訳日:2024-09-05 21:39:27 公開日:2024-09-03 |
# 量子カオス系における量子状態の晩時間アンサンブル
Late-time ensembles of quantum states in quantum chaotic systems ( http://arxiv.org/abs/2409.02187v1 ) ライセンス: Link先を確認 | Souradeep Ghosh, Christopher M. Langlett, Nicholas Hunter-Jones, Joaquin F. Rodriguez-Nieva, | (参考訳) 量子カオス力学の量子状態は、後期には特徴のない状態へと進化することが期待されている。
この予想は平均的で粗いレベルで成り立つが、物理系に典型的な対称性が位相空間の探索を制限しているため、この予想がより高い統計モーメントに適用されるかどうかは不明である。
ここでは、電荷やエネルギー保存といった対称性を持つ量子カオス系のユニタリ力学から得られる深夜アンサンブルの普遍構造について検討する。
初期条件に応じて2つの制限された普遍的体制を同定する。
初期状態が典型的であるとき(対称性作用素のすべてのモーメントが純粋なランダム状態のモーメントと等しい)、深夜アンサンブルは熱力学的極限におけるハールアンサンブルと高い統計モーメントのレベルで区別できない。
さもなくば、非典型的初期状態は、単純な測定やサブシステムの性質からハールアンサンブルと区別できる非普遍アンサンブルへと進化する。
興味深いことに、そのような非定型的初期条件は、積状態の初期条件を考えるときでさえ珍しいものではなく、「最大」カオスであることが知られているハミルトニアンスペクトルの真ん中で見られる。
対称性作用素の無視可能な分散を持つ初期状態(例えば、固定粒子数あるいは無視可能なエネルギー分散を持つ状態)の制限の場合、深夜アンサンブルは制約されたRTTアンサンブルによって捕捉される普遍的な振舞いを持つ。
我々の研究は、中間スペクトル状態が後期の位相空間のエルゴディカルに探索するわけではないにもかかわらず、深夜のアンサンブルは通常、ハールアンサンブルと同じ平均とサンプルとサンプルの揺らぎを示すことを示している。
Quantum states undergoing quantum chaotic dynamics are expected to evolve into featureless states at late times. While this expectation holds true on an average, coarse-grained level, it is unclear if this expectation applies to higher statistical moments, as symmetries typically present in physical systems constrain the exploration of phase space. Here we study the universal structure of late-time ensembles obtained from unitary dynamics in quantum chaotic systems with symmetries, such as charge or energy conservation. We identify two limiting universal regimes depending on the initial condition. When the initial state is typical -- all the moments of the symmetry operators are equal to those of pure random states -- then the late-time ensemble is indistinguishable from the Haar ensemble in the thermodynamic limit and at the level of higher statistical moments. Otherwise, atypical initial states evolve into non-universal ensembles which can be distinguished from the Haar ensemble from simple measurements or subsystem properties. Interestingly, such atypical initial conditions are not rare, even when considering product state initial conditions, and can be found in the middle of the spectrum of Hamiltonians known to be `maximally' chaotic. In the limiting case of initial states with negligible variance of the symmetry operator (e.g., states with fixed particle number or states with negligible energy variance), the late-time ensemble has universal behavior captured by constrained RMT ensembles. Our work shows that even though midspectrum states do not explore ergodically all of phase space at late times, the late-time ensemble typically -- but not always -- exhibits the same average and sample-to-sample fluctuations as the Haar ensemble. | 翻訳日:2024-09-05 21:39:27 公開日:2024-09-03 |
# ノイズ分散データからフェデレーションモデルを協調学習する
Collaboratively Learning Federated Models from Noisy Decentralized Data ( http://arxiv.org/abs/2409.02189v1 ) ライセンス: Link先を確認 | Haoyuan Li, Mathias Funk, Nezihe Merve Gürel, Aaqib Saeed, | (参考訳) フェデレーテッド・ラーニング(FL)は、エッジデバイスからのローカルデータを使用して、データを分散化しながら、機械学習モデルを協調的にトレーニングするための重要な方法として登場した。
しかし、ローカルクライアントが提供したデータの質を考慮に入れることはFLにおいて重要な課題であり、ローカルデータは様々なノイズや摂動の影響を受けやすいことが多いため、集約プロセスが損なわれ、サブパー・グローバルモデルに繋がる。
本研究は,ラベルノイズと比較して,未探索領域である入力空間におけるノイズデータの問題に焦点をあてる。
そこで本研究では,ノイズとクリーンな入力データに基づいて学習したモデルの勾配ノルム分布の密度の差に着想を得た,勾配空間におけるクライアント入力の包括的評価を提案する。
そこで本研究では,FLの初期段階において,低品質なデータを持つクライアントを識別する,単純かつ効果的な手法を提案する。
さらに,FedNS (Federated Noise-Sifting) という,広範に使用されているFL戦略とともにプラグインアプローチとして使用できるノイズ対応FLアグリゲーション手法を提案する。
異なるフェデレーション設定下での多様なベンチマークデータセットに対する広範な評価は、FedNSの有効性を示す。
本手法は既存のFL戦略と密接に統合し,ノイズの多い分散データから学習する場合,IIDの13.68%,非IID設定の15.85%までグローバルモデルの性能を向上させる。
Federated learning (FL) has emerged as a prominent method for collaboratively training machine learning models using local data from edge devices, all while keeping data decentralized. However, accounting for the quality of data contributed by local clients remains a critical challenge in FL, as local data are often susceptible to corruption by various forms of noise and perturbations, which compromise the aggregation process and lead to a subpar global model. In this work, we focus on addressing the problem of noisy data in the input space, an under-explored area compared to the label noise. We propose a comprehensive assessment of client input in the gradient space, inspired by the distinct disparity observed between the density of gradient norm distributions of models trained on noisy and clean input data. Based on this observation, we introduce a straightforward yet effective approach to identify clients with low-quality data at the initial stage of FL. Furthermore, we propose a noise-aware FL aggregation method, namely Federated Noise-Sifting (FedNS), which can be used as a plug-in approach in conjunction with widely used FL strategies. Our extensive evaluation on diverse benchmark datasets under different federated settings demonstrates the efficacy of FedNS. Our method effortlessly integrates with existing FL strategies, enhancing the global model's performance by up to 13.68% in IID and 15.85% in non-IID settings when learning from noisy decentralized data. | 翻訳日:2024-09-05 21:39:27 公開日:2024-09-03 |
# 高次元HGPと重み付き量子LDPC符号の有効距離
Effective Distance of Higher Dimensional HGPs and Weight-Reduced Quantum LDPC Codes ( http://arxiv.org/abs/2409.02193v1 ) ライセンス: Link先を確認 | Shi Jie Samuel Tan, Lev Stambler, | (参考訳) 量子誤り訂正は量子計算の実現において顕著な役割を果たし、量子低密度パリティチェック(qLDPC)符号は事実上有用な安定化符号であると考えられている。
qLDPC符号は一定重みのパリティチェックを持つと定義されているが、これらのパリティチェックの重みは、これらの符号の実装を困難にする大きな定数である可能性がある。
大きな定数は、長いシンドローム抽出時間と、エラー訂正性能に影響を及ぼす悪いエラー伝播をもたらす。
Hastingsは最近、qLDPC符号の重量削減技術を導入し、パリティチェックの重量を減らし、任意のデータキュービットに作用する最大チェック数を減らした。
しかし、これらの手法の耐障害性は未解決の問題である。
本稿では,単一アンシラシンドローム抽出回路が誤り訂正のために考慮されている場合の重み付き符号の有効距離を解析する。
重み付きqLDPC符号の有効距離を保った単一アンシラシンドローム抽出回路が存在することが証明された。
また,Evraらによって導入された距離バランス技術は有効距離を保っていることを示す。
その結果,高次元ハイパーグラフ (HGP) 符号(ホモロジー積符号とも呼ばれる)は, 単一アンシラシンドローム抽出回路を用いた場合, 異常なフック誤差を伴わないことがわかった。
Quantum error correction plays a prominent role in the realization of quantum computation, and quantum low-density parity-check (qLDPC) codes are believed to be practically useful stabilizer codes. While qLDPC codes are defined to have constant weight parity-checks, the weight of these parity checks could be large constants that make implementing these codes challenging. Large constants can also result in long syndrome extraction times and bad error propagation that can impact error correction performance. Hastings recently introduced weight reduction techniques for qLDPC codes that reduce the weight of the parity checks as well as the maximum number of checks that acts on any data qubit. However, the fault tolerance of these techniques remains an open question. In this paper, we analyze the effective distance of the weight-reduced code when single-ancilla syndrome extraction circuits are considered for error correction. We prove that there exists single-ancilla syndrome extraction circuits that largely preserve the effective distance of the weight-reduced qLDPC codes. In addition, we also show that the distance balancing technique introduced by Evra et al. preserves effective distance. As a corollary, our result shows that higher-dimensional hypergraph product (HGP) codes, also known as homological product codes corresponding to the product of 1-complexes, have no troublesome hook errors when using any single-ancilla syndrome extraction circuit. | 翻訳日:2024-09-05 21:39:27 公開日:2024-09-03 |
# 量子電池のユニバーサル充電プロトコル:No-Go理論
Universally-Charging Protocols for Quantum Batteries: A No-Go Theorem ( http://arxiv.org/abs/2409.02198v1 ) ライセンス: Link先を確認 | Pratik Sathe, Francesco Caravelli, | (参考訳) 量子電池の有効性は、堅牢な充電プロセスに依存しているが、これらはしばしば電池の初期状態に敏感である。
我々は、すべての初期状態における平均バッテリーエネルギーを増大または維持するプロトコルとして定義されているユニバーサルチャージ(UC)プロトコルの概念を導入する。
我々は, 閉量子電池ではUCプロトコルは不可能であり, 補助量子システムとの相互作用を必要とすることを示す。
そのために、有限次元ヒルベルト空間を持つ閉量子電池のUCプロトコルを禁止したノーゴー定理を証明した。
位相量子ウォークのノーゴー定理を利用して、無限次元ヒルベルト空間に対してもユニタリUC作用素が存在するが、物理的に合理的なハミルトンプロトコルでは生成できないと論じる。
しかし、次元に関係なく、非単位UCプロトコルはオープンな量子電池で実現できる。
これを説明するために、制御キュービットを持つ一般的なモデルを提案し、その状態は普遍的なチャージプロトコルと普遍的な放電プロトコルの間を補間する。
The effectiveness of a quantum battery relies on a robust charging process, yet these are often sensitive to initial state of the battery. We introduce the concept of a universally-charging (UC) protocol, defined as one that either increases or maintains the average battery energy for all initial states, without ever decreasing it. We show that UC protocols are impossible for closed quantum batteries, thus necessitating interactions with auxilliary quantum systems. To that end, we prove a no-go theorem which prohibits UC protocols for closed quantum batteries with finite-dimensional Hilbert spaces. Leveraging a no-go theorem for topological quantum walks, we argue that even for infinite-dimensional Hilbert spaces, while unitary UC operators exist, they cannot be generated by physically reasonable Hamiltonian protocols. However, regardless of the dimension, non-unitary UC protocols can be achieved in open quantum batteries. To illustrate this, we present a general model with a control qubit, whose state interpolates between universal-charging and universal-discharging protocols. | 翻訳日:2024-09-05 21:39:27 公開日:2024-09-03 |
# 近ゼロ場におけるナノダイヤモンド中の窒素空孔中心を用いたマイクロ波フリーイメージング磁気メトリー
Microwave-free imaging magnetometry with nitrogen-vacancy centers in nanodiamonds at near-zero field ( http://arxiv.org/abs/2409.02199v1 ) ライセンス: Link先を確認 | Saravanan Sengottuvel, Omkar Dhungel, Mariusz Mrózek, Arne Wickenbrock, Dmitry Budker, Wojciech Gawlik, Adam M. Wojciechowski, | (参考訳) ダイヤモンド中の窒素-原子価(NV)色中心を用いた磁気測定は、主にマイクロ波分光に依存する。
しかし、マイクロ波は生物学的システムや薄い導電性試料を含む特定の研究を妨げる可能性がある。
本研究は, マイクロ波を印加することなく, 環境条件下でのゼロ磁場近傍の相互緩和特性を利用して, ナノダイアモンド中のNV中心を利用した広視野・無マイクロ波イメージング磁気センサを実証する。
この目的のために、背景磁場を走査しながら、140nmナノダイアモンドの電流搬送導電パターン上におけるゼロフィールドクロスレラクゼーションの中心シフト、コントラスト、直線幅を測定し、4.5$\mathrm {\mu T/\sqrt{Hz}}$の感度を得る。
本研究は,ナノダイアモンドにNVゼロ磁場特性を適用し,ナノダイアモンドを用いたマイクロ波フリー全光学広視野磁気センサの可能性を強調した。
Magnetometry using Nitrogen-Vacancy (NV) color centers in diamond predominantly relies on microwave spectroscopy. However, microwaves may hinder certain studies involving biological systems or thin conductive samples. This work demonstrates a wide-field, microwave-free imaging magnetometer utilizing NV centers in nanodiamonds by exploiting the cross-relaxation feature near zero magnetic fields under ambient conditions without applying microwaves. For this purpose, we measure the center shift, contrast, and linewidth of the zero-field cross-relaxation in 140 nm nanodiamonds drop-cast on a current-carrying conductive pattern while scanning a background magnetic field, achieving a sensitivity of 4.5 $\mathrm{\mu T/\sqrt{Hz}}$. Our work allows for applying the NV zero-field feature in nanodiamonds for magnetic field sensing in the zero and low-field regimes and highlights the potential for microwave-free all-optical wide-field magnetometry based on nanodiamonds. | 翻訳日:2024-09-05 21:39:27 公開日:2024-09-03 |
# Split Co-Teachingによる量子ニューラルネットワーク抽出攻撃
Quantum Neural Network Extraction Attack via Split Co-Teaching ( http://arxiv.org/abs/2409.02207v1 ) ライセンス: Link先を確認 | Zhenxiao fu, Fan Chen, | (参考訳) 量子ニューラルネットワーク(QNN)は現在QNN-as-a-Service(QNNaaS)として提供されており、モデル抽出攻撃の主要なターゲットとなっている。
最先端の手法では,高精度な代替QNNの訓練にアンサンブル学習を用いるが,実環境のNISQ環境ではノイズやコストの制約が効果を損なう重要な制約が明らかになる。
本研究では, ノイズ感度によるラベル変動を利用した新しい攻撃法である \textit{split co-teaching} を導入し, 抽出精度を高めるために \textit{co-teaching} 方式を用いる。
NISQプロセッサを用いた実験により,従来のQNN抽出法では6.5\%$\sim$9.5\%,既存のQNN抽出法では0.1\%$\sim$3.7\%を達成できた。
Quantum Neural Networks (QNNs), now offered as QNN-as-a-Service (QNNaaS), have become key targets for model extraction attacks. State-of-the-art methods use ensemble learning to train accurate substitute QNNs, but our analysis reveals significant limitations in real-world NISQ environments, where noise and cost constraints undermine their effectiveness. In this work, we introduce a novel attack, \textit{split co-teaching}, which leverages label variations to \textit{split} queried data by noise sensitivity and employs \textit{co-teaching} schemes to enhance extraction accuracy. Experiments on NISQ processors demonstrate that our approach outperforms classical extraction attacks by 6.5\%$\sim$9.5\% and existing QNN extraction methods by 0.1\%$\sim$3.7\% across various tasks. | 翻訳日:2024-09-05 21:39:27 公開日:2024-09-03 |
# LSTM-QGAN: Scalable NISQ Generative Adversarial Network
LSTM-QGAN: Scalable NISQ Generative Adversarial Network ( http://arxiv.org/abs/2409.02212v1 ) ライセンス: Link先を確認 | Cheng Chu, Aishwarya Hastak, Fan Chen, | (参考訳) 現在の量子生成敵ネットワーク(QGAN)は、実用規模のデータに苦戦している。
まず,多くのQGANが主成分分析(PCA)を用いて次元を減少させ,QGANの有効性を低下させる。
第二に、複数のジェネレータによって処理される小さなパッチに入力を分割するメソッドはスケーラビリティの問題に直面している。
そこで本研究では,PCA前処理を不要としたQGANアーキテクチャであるLSTM-QGANを提案する。
実験の結果、LSTM-QGANは最先端QGANモデルの性能とスケーラビリティを向上し、視覚データの改善、フレシェ・インセプション・ディスタンス(Frechet Inception Distance)スコアの低減、キュービット数5倍、単一キュービットゲート5倍、2キュービットゲート12倍の削減を実現した。
Current quantum generative adversarial networks (QGANs) still struggle with practical-sized data. First, many QGANs use principal component analysis (PCA) for dimension reduction, which, as our studies reveal, can diminish the QGAN's effectiveness. Second, methods that segment inputs into smaller patches processed by multiple generators face scalability issues. In this work, we propose LSTM-QGAN, a QGAN architecture that eliminates PCA preprocessing and integrates quantum long short-term memory (QLSTM) to ensure scalable performance. Our experiments show that LSTM-QGAN significantly enhances both performance and scalability over state-of-the-art QGAN models, with visual data improvements, reduced Frechet Inception Distance scores, and reductions of 5x in qubit counts, 5x in single-qubit gates, and 12x in two-qubit gates. | 翻訳日:2024-09-05 21:39:26 公開日:2024-09-03 |
# A+AI: 社会、改革、ガバナンスへの脅威
A+AI: Threats to Society, Remedies, and Governance ( http://arxiv.org/abs/2409.02219v1 ) ライセンス: Link先を確認 | Don Byrd, | (参考訳) この文書は、人工知能(AI)が社会にもたらす脅威、特に短期的な脅威に焦点を当てている。
ここで議論されている脅威のほとんどは、AIだけでなく、アルゴリズムのプロセスによってもたらされる。
両方の理由から、アルゴリズムと人工知能という「A+AI」を考えることが重要である。
脅威に加えて,脅威に対する対策についても論じるとともに,どの脅威を緩和するかを示す表も含む。
疑わしいガバナンスは、重大な進歩を妨げることなくリスクを管理することができる。
アメリカ合衆国内でアクセス可能なすべてのソーシャルメディアプラットフォームに対して、アカウントが市民によって所有されていることの検証と、すべてのアカウントの検証ステータスの表示を要求 * A+AIで作成または大幅に修正されたすべての製品が明確にラベル付けされること、人の類似性を創造するために生成AIの使用を制限すること、および、生成AIソフトウェアの作成者が、ソフトウェアをトレーニングするために使用される材料を開示し、使用した著作権物質の作成者を補償することを要求すること。
This document focuses on the threats, especially near-term threats, that Artificial Intelligence (AI) brings to society. Most of the threats discussed here can result from any algorithmic process, not just AI; in addition, defining AI is notoriously difficult. For both reasons, it is important to think of "A+AI": Algorithms and Artificial Intelligence. In addition to the threats, this paper discusses countermeasures to them, and it includes a table showing which countermeasures are likely to mitigate which threats. Thoughtful governance could manage the risks without seriously impeding progress; in fact, chances are it would accelerate progress by reducing the social chaos that would otherwise be likely. The paper lists specific actions government should take as soon as possible, namely: * Require all social media platforms accessible in the U.S. to offer users verification that their accounts are owned by citizens, and to display every account's verification status * Establish regulations to require that all products created or significantly modified with A+AI be clearly labeled as such; to restrict use of generative AI to create likenesses of persons; and to require creators of generative AI software to disclose materials used to train their software and to compensate the creators of any copyrighted material used * Fund a crash project of research on mitigating the threats * Fund educational campaigns to raise awareness of the threats | 翻訳日:2024-09-05 21:27:46 公開日:2024-09-03 |
# モジュールLWEとモジュールSISに基づくデジタル署名方式
A Digital signature scheme based on Module-LWE and Module-SIS ( http://arxiv.org/abs/2409.02222v1 ) ライセンス: Link先を確認 | Huda Naeem Hleeb Al-Jabbari, Ali Rajaei, Abbas Maarefparvar, | (参考訳) 本稿では,モジュールLWE問題とモジュールSIS問題に基づいて,Sharafi と Daghigh が提案するデジタル署名方式の改良版を提案する。
提案方式は,Sharaf-Daghigh方式よりもセキュリティレベルが著しく高く,デコード失敗確率も小さく,基礎となる基本リングのモジュールの増大を犠牲にしている。
In this paper, we present an improved version of the digital signature scheme proposed by Sharafi and Daghigh based on Module-LWE and Module-SIS problems. Our proposed signature scheme has a notably higher security level and smaller decoding failure probability, than the ones in the Sharaf-Daghigh scheme, at the expense of enlarging the module of the underlying basic ring. | 翻訳日:2024-09-05 21:27:46 公開日:2024-09-03 |
# EgoPressure: 自我中心視における手圧力と姿勢推定のためのデータセット
EgoPressure: A Dataset for Hand Pressure and Pose Estimation in Egocentric Vision ( http://arxiv.org/abs/2409.02224v1 ) ライセンス: Link先を確認 | Yiming Zhao, Taein Kwon, Paul Streli, Marc Pollefeys, Christian Holz, | (参考訳) エゴセントリック・ビジョンにおけるタッチコンタクトとプレッシャーの推定は、拡張現実(Augmented Reality)、仮想現実(Virtual Reality)、そして多くのロボット・アプリケーションにおいて、下流のアプリケーションにとって重要なタスクである。
しかし、既存の接触圧力データセットには、AR/VRインタラクションとロボット操作の両方において、その場での正確な推定に不可欠な、自我中心のビューやポーズが欠けている。
本稿では,タッチ接触と圧力相互作用の新たなデータセットであるEgoPressureについて紹介する。
データセットのハンドポーズは,8台のRGBDカメラのキャプチャリグからの映像を正確に調整するマルチビューシーケンスベース手法を用いて最適化されている。
EgoPressureは、動く自我中心のカメラと7台の静止Kinectカメラで捉えた21人の参加者から5.0時間の接触と圧力の相互作用を持ち、RGB画像と深度マップを30Hzで提供する。
さらに、さまざまなモーダルで圧力を推定するためのベースラインを提供し、将来の開発とデータセットのベンチマークを可能にします。
全体として、圧力と手ポーズは相補的なもので、AR/VRおよびロボティクス研究における手と物体の相互作用の物理的理解をより促進するための私たちの意図を支持します。
Estimating touch contact and pressure in egocentric vision is a central task for downstream applications in Augmented Reality, Virtual Reality, as well as many robotic applications, because it provides precise physical insights into hand-object interaction and object manipulation. However, existing contact pressure datasets lack egocentric views and hand poses, which are essential for accurate estimation during in-situ operation, both for AR/VR interaction and robotic manipulation. In this paper, we introduce EgoPressure,a novel dataset of touch contact and pressure interaction from an egocentric perspective, complemented with hand pose meshes and fine-grained pressure intensities for each contact. The hand poses in our dataset are optimized using our proposed multi-view sequence-based method that processes footage from our capture rig of 8 accurately calibrated RGBD cameras. EgoPressure comprises 5.0 hours of touch contact and pressure interaction from 21 participants captured by a moving egocentric camera and 7 stationary Kinect cameras, which provided RGB images and depth maps at 30 Hz. In addition, we provide baselines for estimating pressure with different modalities, which will enable future developments and benchmarking on the dataset. Overall, we demonstrate that pressure and hand poses are complementary, which supports our intention to better facilitate the physical understanding of hand-object interactions in AR/VR and robotics research. | 翻訳日:2024-09-05 21:27:46 公開日:2024-09-03 |
# 言語モデルにおける忘れられない一般化
Unforgettable Generalization in Language Models ( http://arxiv.org/abs/2409.02228v1 ) ライセンス: Link先を確認 | Eric Zhang, Leshem Chosen, Jacob Andreas, | (参考訳) 言語モデル(LM)が、スキルを忘れるように訓練された場合、それらの振る舞いはどのように正確に変化するのか?我々は、ランダムなラベルを微調整することでタスクを忘れたトランスフォーマーLMの振る舞いを研究する。そのようなLMは、忘れるために使われる「トレーニング」セットの個々の例に対するほぼランダムな予測を生成する。
しかしながら、タスク全体において、LM予測がトレーニングセット外の例で変化するかどうかにおいて、極めて可変性を示す。
あるタスク(例えば、包含分類など)では、忘れることが強固に一般化し、新しいタスクのインスタンスに非形式的予測をもたらす。他のタスク(例えば、物理的常識推論や科学的質問応答)では、忘れることがトレーニングの例だけに影響を与え、モデルはトレーニングセットに現れるものと非常に似た例でも、正確に「忘れられた」タスクを実行し続ける。
データセットの難しさは、ある行動が忘れられるかどうかを予測するものではなく、その代わりに、忘れることの一般化は、LMの初期のタスク予測の信頼とトレーニングデータのLM表現のばらつきによって予測される(弱く)。
例えば、ランダムラベルを用いた科学的な質問で訓練されたモデルは、他の科学的な質問に正確に答え続けるが、包括的分類タスクでランダムラベルを作成し始める。
LMの表現に基づいて訓練された線形プローブは、忘れた後に確実にタスクを実行することができる。
本研究の結果は,微調整によるモデルからの目標スキル除去の難しさと予測不可能さを浮き彫りにした。
When language models (LMs) are trained to forget (or "unlearn'') a skill, how precisely does their behavior change? We study the behavior of transformer LMs in which tasks have been forgotten via fine-tuning on randomized labels. Such LMs learn to generate near-random predictions for individual examples in the "training'' set used for forgetting. Across tasks, however, LMs exhibit extreme variability in whether LM predictions change on examples outside the training set. In some tasks (like entailment classification), forgetting generalizes robustly, and causes models to produce uninformative predictions on new task instances; in other tasks (like physical commonsense reasoning and scientific question answering) forgetting affects only the training examples, and models continue to perform the "forgotten'' task accurately even for examples very similar to those that appeared in the training set. Dataset difficulty is not predictive of whether a behavior can be forgotten; instead, generalization in forgetting is (weakly) predicted by the confidence of LMs' initial task predictions and the variability of LM representations of training data, with low confidence and low variability both associated with greater generalization. Perhaps most surprisingly, random-label forgetting appears to be somewhat insensitive to the contents of the training set: for example, models trained on science questions with random labels continue to answer other science questions accurately, but begin to produce random labels on entailment classification tasks. Finally, we show that even generalizable forgetting is shallow: linear probes trained on LMs' representations can still perform tasks reliably after forgetting. Our results highlight the difficulty and unpredictability of performing targeted skill removal from models via fine-tuning. | 翻訳日:2024-09-05 21:27:46 公開日:2024-09-03 |
# SmileyLlama: 化学宇宙探査のための大規模言語モデルの修正
SmileyLlama: Modifying Large Language Models for Directed Chemical Space Exploration ( http://arxiv.org/abs/2409.02231v1 ) ライセンス: Link先を確認 | Joseph M. Cavanagh, Kunyang Sun, Andrew Gritsevskiy, Dorian Bagni, Thomas D. Bannister, Teresa Head-Gordon, | (参考訳) ここでは,Large Language Model (LLM) がケミカル言語モデル (CLM) の基礎モデルとして機能し,化学SMILES文字列データのみに基づいて訓練されたCLMのレベル以上で動作することを示す。
オープンソースLlama LLMにおけるSFTと直接選好最適化(DPO)を用いて, LLMをトレーニングし, 薬物開発に特有な分子生成などのプロンプトに応答できることを実証した。
この全体的なフレームワークにより、LCMは化学および材料タスクのためのチャットボットクライアントであるだけでなく、ユーザが指定した特性を持つ分子を生成することができるCLMとして、より直接的に話すことができる。
Here we show that a Large Language Model (LLM) can serve as a foundation model for a Chemical Language Model (CLM) which performs at or above the level of CLMs trained solely on chemical SMILES string data. Using supervised fine-tuning (SFT) and direct preference optimization (DPO) on the open-source Llama LLM, we demonstrate that we can train an LLM to respond to prompts such as generating molecules with properties of interest to drug development. This overall framework allows an LLM to not just be a chatbot client for chemistry and materials tasks, but can be adapted to speak more directly as a CLM which can generate molecules with user-specified properties. | 翻訳日:2024-09-05 21:27:46 公開日:2024-09-03 |
# ASRのための最適輸送に基づくクロスモーダル知識伝達学習のための時間次保存
Temporal Order Preserved Optimal Transport-based Cross-modal Knowledge Transfer Learning for ASR ( http://arxiv.org/abs/2409.02239v1 ) ライセンス: Link先を確認 | Xugang Lu, Peng Shen, Yu Tsao, Hisashi Kawai, | (参考訳) 事前訓練された言語モデル(PLM)から音響モデルに言語知識を移すことにより,自動音声認識(ASR)の性能を大幅に向上させることが示されている。
しかし, 異質な特徴分布が多様であることから, 特徴アライメントの効果的なモデルの設計や, 言語的および音響的シーケンス間の知識伝達が困難な課題である。
確率分布の不一致を効率的に測定する最適輸送(OT)は、音響と言語間の知識の整合と伝達に大きな可能性を秘めている。
それでも、元のOTは、音響的特徴列と言語的特徴列をアライメントにおいて2つの非順序集合として扱い、OT結合推定中に時間的順序情報を無視する。
その結果、音響的表現と言語的表現の整合性を学習するためには、時間を要する事前学習段階が必要である。
本稿では、ASRのための時間順序保存OT(TOT)に基づくクロスモーダルアライメント・アンド・ナレッジ・トランスファー(CAKT)を提案する。
TOT-CAKTでは、音響シーケンスの局所的な隣接フレームを言語シーケンスの隣接領域に滑らかにマッピングし、特徴アライメントとマッチングにおける時間的順序関係を保存する。
TOT-CAKTモデルフレームワークを用いて,言語知識伝達のための中国語PLMを用いたマンダリンASR実験を行う。
提案したTOT-CAKTは,言語知識伝達を用いたいくつかの最先端モデルと比較してASR性能を著しく向上し,ASRの逐次的特徴アライメントにおけるOTベースの手法の弱点に対処することを示した。
Transferring linguistic knowledge from a pretrained language model (PLM) to an acoustic model has been shown to greatly improve the performance of automatic speech recognition (ASR). However, due to the heterogeneous feature distributions in cross-modalities, designing an effective model for feature alignment and knowledge transfer between linguistic and acoustic sequences remains a challenging task. Optimal transport (OT), which efficiently measures probability distribution discrepancies, holds great potential for aligning and transferring knowledge between acoustic and linguistic modalities. Nonetheless, the original OT treats acoustic and linguistic feature sequences as two unordered sets in alignment and neglects temporal order information during OT coupling estimation. Consequently, a time-consuming pretraining stage is required to learn a good alignment between the acoustic and linguistic representations. In this paper, we propose a Temporal Order Preserved OT (TOT)-based Cross-modal Alignment and Knowledge Transfer (CAKT) (TOT-CAKT) for ASR. In the TOT-CAKT, local neighboring frames of acoustic sequences are smoothly mapped to neighboring regions of linguistic sequences, preserving their temporal order relationship in feature alignment and matching. With the TOT-CAKT model framework, we conduct Mandarin ASR experiments with a pretrained Chinese PLM for linguistic knowledge transfer. Our results demonstrate that the proposed TOT-CAKT significantly improves ASR performance compared to several state-of-the-art models employing linguistic knowledge transfer, and addresses the weaknesses of the original OT-based method in sequential feature alignment for ASR. | 翻訳日:2024-09-05 21:27:46 公開日:2024-09-03 |
# 顔が帽子のように見えるもの:画像トリプレットで低レベルと高レベルなビジュアルプロパティを分離する
What makes a face looks like a hat: Decoupling low-level and high-level Visual Properties with Image Triplets ( http://arxiv.org/abs/2409.02241v1 ) ライセンス: Link先を確認 | Maytus Piriyajitakonkij, Sirawaj Itthipuripat, Ian Ballard, Ioannis Pappas, | (参考訳) 視覚的意思決定において、オブジェクトカテゴリのような高レベルな特徴は、選択に強い影響を与える。
しかし, 刺激の高次特徴と低次特徴との間に高い相関関係があることから, 行動に対する低次特徴の影響は理解されていない(例えば, 同一カテゴリーの対象が低次特徴を共有する傾向が強い)。
これらの効果を抑えるために,新しい刺激のセットにおいて,低レベルの視覚特性と高レベルの視覚特性を区別する手法を提案する。
本手法では,2つの畳み込みニューラルネットワーク(CNN)を腹側視覚ストリームの候補モデルとして,高レベルのIT様応答における神経予測率の高いCORnet-Sと,低レベルの応答における神経予測率の高いVGG-16を用いる。
刺激のトリプレット(root, image1, image2)は、異なる層から抽出された画像の低レベル及び高レベルの類似度によってパラメータ化される。
これらの刺激は、参加者が最もよく似た画像を選択するように指示される意思決定タスクで使用される。
CORnet-Sは、高レベルの類似性に基づく人間の選択を説明するのに、VGG-16は低レベルの類似性に基づく人間の選択を説明するのに、VGG-SはCORnet-Sより優れています。
Brain-Scoreを用いて、これらのネットワークの異なる階層の行動予測能力は、視覚階層の異なるレベルでの神経活動を説明する能力と質的に一致することを示した。
まとめると、刺激セット生成のためのアルゴリズムは、視覚ストリーム内の異なる表現がハイレベルな認知行動にどのように影響するかの研究を可能にする。
In visual decision making, high-level features, such as object categories, have a strong influence on choice. However, the impact of low-level features on behavior is less understood partly due to the high correlation between high- and low-level features in the stimuli presented (e.g., objects of the same category are more likely to share low-level features). To disentangle these effects, we propose a method that de-correlates low- and high-level visual properties in a novel set of stimuli. Our method uses two Convolutional Neural Networks (CNNs) as candidate models of the ventral visual stream: the CORnet-S that has high neural predictivity in high-level, IT-like responses and the VGG-16 that has high neural predictivity in low-level responses. Triplets (root, image1, image2) of stimuli are parametrized by the level of low- and high-level similarity of images extracted from the different layers. These stimuli are then used in a decision-making task where participants are tasked to choose the most similar-to-the-root image. We found that different networks show differing abilities to predict the effects of low-versus-high-level similarity: while CORnet-S outperforms VGG-16 in explaining human choices based on high-level similarity, VGG-16 outperforms CORnet-S in explaining human choices based on low-level similarity. Using Brain-Score, we observed that the behavioral prediction abilities of different layers of these networks qualitatively corresponded to their ability to explain neural activity at different levels of the visual hierarchy. In summary, our algorithm for stimulus set generation enables the study of how different representations in the visual stream affect high-level cognitive behaviors. | 翻訳日:2024-09-05 21:27:46 公開日:2024-09-03 |
# 心的障害検出のための新しいオーディオ・ビジュアル情報融合システム
A Novel Audio-Visual Information Fusion System for Mental Disorders Detection ( http://arxiv.org/abs/2409.02243v1 ) ライセンス: Link先を確認 | Yichun Li, Shuanglin Li, Syed Mohsen Naqvi, | (参考訳) メンタル障害は、世界的な医療課題に最も貢献している。
研究は、様々な精神疾患の治療において、タイムリーな診断と介入が不可欠であることを示している。
しかし、特定の精神疾患の早期体性化症状はすぐには明らかではなく、しばしばその監視と誤診をもたらす。
また、従来の診断方法では、高い時間とコストがかかる。
fMRIと脳波に基づく深層学習法は、精神障害検出プロセスの効率を改善した。
しかし、設備と訓練スタッフのコストは概して大きい。
さらに、ほとんどのシステムは特定の精神障害のためにのみ訓練されており、汎用的ではない。
近年、生理学的研究により、いくつかの精神疾患(例えば、うつ病、ADHD)に音声および顔面関連症状が存在することが示されている。
本稿では,精神疾患の感情表現機能に着目し,音声・視覚情報入力に基づくマルチモーダル精神障害診断システムを導入する。
提案システムは空間的時間的注意ネットワークをベースとし,より計算力の低い事前学習音声認識ネットワークを用いて,より優れた結果を得るためにビデオ認識モジュールを微調整する。
また,多発性精神疾患(ADHD,うつ病)に対する統合システムも初めて適用した。
提案システムは,実マルチモーダルADHDデータセット上で80%以上の精度を達成し,うつ病データセットAVEC 2014の最先端結果を達成する。
Mental disorders are among the foremost contributors to the global healthcare challenge. Research indicates that timely diagnosis and intervention are vital in treating various mental disorders. However, the early somatization symptoms of certain mental disorders may not be immediately evident, often resulting in their oversight and misdiagnosis. Additionally, the traditional diagnosis methods incur high time and cost. Deep learning methods based on fMRI and EEG have improved the efficiency of the mental disorder detection process. However, the cost of the equipment and trained staff are generally huge. Moreover, most systems are only trained for a specific mental disorder and are not general-purpose. Recently, physiological studies have shown that there are some speech and facial-related symptoms in a few mental disorders (e.g., depression and ADHD). In this paper, we focus on the emotional expression features of mental disorders and introduce a multimodal mental disorder diagnosis system based on audio-visual information input. Our proposed system is based on spatial-temporal attention networks and innovative uses a less computationally intensive pre-train audio recognition network to fine-tune the video recognition module for better results. We also apply the unified system for multiple mental disorders (ADHD and depression) for the first time. The proposed system achieves over 80\% accuracy on the real multimodal ADHD dataset and achieves state-of-the-art results on the depression dataset AVEC 2014. | 翻訳日:2024-09-05 21:27:46 公開日:2024-09-03 |
# NLP課題としてのセラピー : 心理学者によるCBTにおけるLLMと人間ピアの比較
Therapy as an NLP Task: Psychologists' Comparison of LLMs and Human Peers in CBT ( http://arxiv.org/abs/2409.02244v1 ) ライセンス: Link先を確認 | Zainab Iftikhar, Sean Ransom, Amy Xiao, Jeff Huang, | (参考訳) 治療機関への幅広いアクセスは、精神医療における最大の課題の1つである。
制度上の障壁により、精神的な健康支援を求める人々は、大きな言語モデル(LLM)に転換してパーソナライズされた治療を行っている。
LLMをエビデンスベースの治療の担い手として用いる可能性と限界について,混合法の臨床指標を用いて検討した。
HELPERTを用いて,認知行動療法(Cognitive Behavioral Therapy, CBT)に根ざした公衆アクセス型メンタルヘルスの会話を再現し, セッションのダイナミクスと, オリジナルのピアサポートセッションと再構成されたHELPERTセッションとのCBTに基づく行動を比較した。
CBTを訓練した2人の臨床心理学者が認知療法評価尺度を用いてセッションを評価し、質的なフィードバックを提供した。
その結果, ピアセッションは共感, 小話, セラピーアライアンス, 共有体験が特徴であるが, セラピストのドリフトがしばしば現れることがわかった。
逆に、HELPERT再構成セッションは、最小のセラピストドリフトとCBT法への高い順守を示すが、協調、共感、文化的理解の欠如を示す。
CTRS評価と心理学者のフィードバックを通じて、スケーラブルなメンタルヘルスにおける人間とAIのコラボレーションの重要性を強調した。
本研究は,LLMに人間のような主観的品質を付与することの倫理的意味,特に非現実的な患者への期待や潜在的な害をもたらす誤認のリスクについて概説する。
Wider access to therapeutic care is one of the biggest challenges in mental health treatment. Due to institutional barriers, some people seeking mental health support have turned to large language models (LLMs) for personalized therapy, even though these models are largely unsanctioned and untested. We investigate the potential and limitations of using LLMs as providers of evidence-based therapy by using mixed methods clinical metrics. Using HELPERT, a prompt run on a large language model using the same process and training as a comparative group of peer counselors, we replicated publicly accessible mental health conversations rooted in Cognitive Behavioral Therapy (CBT) to compare session dynamics and counselor's CBT-based behaviors between original peer support sessions and their reconstructed HELPERT sessions. Two licensed, CBT-trained clinical psychologists evaluated the sessions using the Cognitive Therapy Rating Scale and provided qualitative feedback. Our findings show that the peer sessions are characterized by empathy, small talk, therapeutic alliance, and shared experiences but often exhibit therapist drift. Conversely, HELPERT reconstructed sessions exhibit minimal therapist drift and higher adherence to CBT methods but display a lack of collaboration, empathy, and cultural understanding. Through CTRS ratings and psychologists' feedback, we highlight the importance of human-AI collaboration for scalable mental health. Our work outlines the ethical implication of imparting human-like subjective qualities to LLMs in therapeutic settings, particularly the risk of deceptive empathy, which may lead to unrealistic patient expectations and potential harm. | 翻訳日:2024-09-05 21:27:46 公開日:2024-09-03 |
# FastVoiceGrad: 逆条件拡散蒸留を用いた1段階拡散に基づく音声変換
FastVoiceGrad: One-step Diffusion-Based Voice Conversion with Adversarial Conditional Diffusion Distillation ( http://arxiv.org/abs/2409.02245v1 ) ライセンス: Link先を確認 | Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Yuto Kondo, | (参考訳) 音声品質と話者類似性の観点から,VoiceGradのような拡散型音声変換(VC)技術は,VCの性能が高いことから注目されている。
しかし、顕著な制限は、多段階の逆拡散によって引き起こされる遅い推論である。
そこで我々は,FastVoiceGradを提案する。FastVoiceGradは,多段階拡散型VCの高VC性能を継承しながら,数十から1までのイテレーション数を削減できる新しい1段階拡散型VCである。
本研究では, 逆条件拡散蒸留法(ACDD)を用いて, 初期状態を再考しながら, 生成する逆方向のネットワークと拡散モデルの能力を生かしたモデルを得る。
ワンショットの任意のVCの評価によると、FastVoiceGradは、推論速度を高めながら、従来の多段階拡散ベースVCに匹敵するVCのパフォーマンスを達成している。
オーディオサンプルはhttps://www.kecl.ntt.co.jp/people/ Kaneko.takuhiro/projects/fastvoicegrad/で入手できる。
Diffusion-based voice conversion (VC) techniques such as VoiceGrad have attracted interest because of their high VC performance in terms of speech quality and speaker similarity. However, a notable limitation is the slow inference caused by the multi-step reverse diffusion. Therefore, we propose FastVoiceGrad, a novel one-step diffusion-based VC that reduces the number of iterations from dozens to one while inheriting the high VC performance of the multi-step diffusion-based VC. We obtain the model using adversarial conditional diffusion distillation (ACDD), leveraging the ability of generative adversarial networks and diffusion models while reconsidering the initial states in sampling. Evaluations of one-shot any-to-any VC demonstrate that FastVoiceGrad achieves VC performance superior to or comparable to that of previous multi-step diffusion-based VC while enhancing the inference speed. Audio samples are available at https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/fastvoicegrad/. | 翻訳日:2024-09-05 21:27:46 公開日:2024-09-03 |
# 複合型警察パトロールとディスパッチのためのマルチエージェント強化学習
Multi-Agent Reinforcement Learning for Joint Police Patrol and Dispatch ( http://arxiv.org/abs/2409.02246v1 ) ライセンス: Link先を確認 | Matthew Repasky, He Wang, Yao Xie, | (参考訳) 警察パトロール隊は、予防パトロールと非常事態に備えて派遣される期間を分ける必要がある。
現存する文献では、パトロールと派遣の決定は別々に研究されることが多い。
我々は,これらの2つの決定を共同で最適化し,警察活動の効率化と緊急呼び出しに対する応答時間を短縮する。
提案手法は,複数エージェントのパトロールとディスパッチを協調的に最適化し,迅速な応答時間をもたらすポリシーを学習するための新しい手法である。
本手法は,各パトロールラーを独立Qラーナー(エージェント)として,状態-作用値を表す共有深度Q-ネットワークで処理する。
ディスパッチ決定は、混合整数プログラミングと組合せアクション空間からの値関数近似を用いて選択される。
この異種多エージェント強化学習アプローチは、パトロールやディスパッチに最適化された手法よりも優れたジョイントポリシーを学習できることを示す。
管理上の意味: パトロールとディスパッチに共同で最適化されたポリシーは、より効果的なサービスにつながり得る一方で、例えば効率性とレスポンスの株式を奨励するといった、明らかに柔軟な目標を目標にしている。
Police patrol units need to split their time between performing preventive patrol and being dispatched to serve emergency incidents. In the existing literature, patrol and dispatch decisions are often studied separately. We consider joint optimization of these two decisions to improve police operations efficiency and reduce response time to emergency calls. Methodology/results: We propose a novel method for jointly optimizing multi-agent patrol and dispatch to learn policies yielding rapid response times. Our method treats each patroller as an independent Q-learner (agent) with a shared deep Q-network that represents the state-action values. The dispatching decisions are chosen using mixed-integer programming and value function approximation from combinatorial action spaces. We demonstrate that this heterogeneous multi-agent reinforcement learning approach is capable of learning joint policies that outperform those optimized for patrol or dispatch alone. Managerial Implications: Policies jointly optimized for patrol and dispatch can lead to more effective service while targeting demonstrably flexible objectives, such as those encouraging efficiency and equity in response. | 翻訳日:2024-09-05 21:27:46 公開日:2024-09-03 |
# ノイズアタック:ホワイトガウシアンノイズによる多目的バックドア攻撃
NoiseAttack: An Evasive Sample-Specific Multi-Targeted Backdoor Attack Through White Gaussian Noise ( http://arxiv.org/abs/2409.02251v1 ) ライセンス: Link先を確認 | Abdullah Arafat Miah, Kaan Icer, Resit Sendag, Yu Bi, | (参考訳) ディープラーニング開発にサードパーティのデータを使用する場合、バックドア攻撃は重大な脅威となる。
これらの攻撃では、訓練されたモデルが特定のトリガーパターンを適用した時に不適切に振る舞うようにデータを操作でき、敵に無許可の利点を与える。
既存のほとんどの研究は、被害者のクラスを毒殺するために、目に見えるものと見えない両方のトリガーパターンを設計することに重点を置いているが、一般的には、バックドアアタックの成功によって、単一のターゲットクラスが生じる。
本稿では,新しいサンプル特異的なマルチターゲットバックドアアタック,すなわちNossAttackを導入することで,この問題に対処する。
具体的には、様々なパワースペクトル密度(PSD)を持つホワイト・ガウスノイズ(WGN)を、バックドア攻撃を実行するためのユニークな訓練戦略と組み合わせて採用する。
この作業は、最小限の入力構成で複数のターゲットクラスを生成することを意図した、視覚バックドアアタックを起動する、同社初のものだ。
さらに、我々は、NossAttackが一般的なネットワークアーキテクチャやデータセットに対して高い攻撃成功率を達成でき、また最先端のバックドア検出手法をバイパスできることを示した。
私たちのソースコードと実験はhttps://github.com/SiSL-URI/NoiseAttack/tree/main.orgで公開されています。
Backdoor attacks pose a significant threat when using third-party data for deep learning development. In these attacks, data can be manipulated to cause a trained model to behave improperly when a specific trigger pattern is applied, providing the adversary with unauthorized advantages. While most existing works focus on designing trigger patterns in both visible and invisible to poison the victim class, they typically result in a single targeted class upon the success of the backdoor attack, meaning that the victim class can only be converted to another class based on the adversary predefined value. In this paper, we address this issue by introducing a novel sample-specific multi-targeted backdoor attack, namely NoiseAttack. Specifically, we adopt White Gaussian Noise (WGN) with various Power Spectral Densities (PSD) as our underlying triggers, coupled with a unique training strategy to execute the backdoor attack. This work is the first of its kind to launch a vision backdoor attack with the intent to generate multiple targeted classes with minimal input configuration. Furthermore, our extensive experimental results demonstrate that NoiseAttack can achieve a high attack success rate against popular network architectures and datasets, as well as bypass state-of-the-art backdoor detection methods. Our source code and experiments are available at https://github.com/SiSL-URI/NoiseAttack/tree/main. | 翻訳日:2024-09-05 21:27:46 公開日:2024-09-03 |
# ブラックボックス・ビジョン・ランゲージ・モデルの優先画像分布の決定法
How to Determine the Preferred Image Distribution of a Black-Box Vision-Language Model? ( http://arxiv.org/abs/2409.02253v1 ) ライセンス: Link先を確認 | Saeid Asgari Taghanaki, Joseph Lambourne, Alana Mongkhounsavath, | (参考訳) 大規模な基盤モデルはこの分野に革命をもたらしたが、専門的な視覚タスクのためのマルチモーダルモデルの最適化には依然として課題が残っている。
本稿では,様々な入力プロンプト間で出力の整合性を測定することによって,ブラックボックスビジョンランゲージモデル(VLM)の優先画像分布を同定する,新しい一般化可能な手法を提案する。
これを異なる3Dオブジェクトのレンダリングタイプに適用することにより、コンピュータ支援設計(CAD)を模範分野として、複雑な構造を正確に解釈する必要のある様々な領域で有効性を示す。
我々は、人間のフィードバックで文脈内学習を用いてVLM出力をさらに洗練し、説明品質を著しく向上させる。
特殊なドメインにおけるベンチマークの欠如を解決するために,CAD関連視覚質問応答タスク上でVLMを評価するための新しいデータセットであるCAD-VQAを導入する。
CAD-VQA 上での最先端 VLM の評価は,様々な分野にわたる複雑な視覚的推論タスクにおける VLM 機能向上のための基盤となる性能レベルを確立する。
データセットと評価コードは \url{https://github.com/asgsaeid/cad_vqa} で公開しています。
Large foundation models have revolutionized the field, yet challenges remain in optimizing multi-modal models for specialized visual tasks. We propose a novel, generalizable methodology to identify preferred image distributions for black-box Vision-Language Models (VLMs) by measuring output consistency across varied input prompts. Applying this to different rendering types of 3D objects, we demonstrate its efficacy across various domains requiring precise interpretation of complex structures, with a focus on Computer-Aided Design (CAD) as an exemplar field. We further refine VLM outputs using in-context learning with human feedback, significantly enhancing explanation quality. To address the lack of benchmarks in specialized domains, we introduce CAD-VQA, a new dataset for evaluating VLMs on CAD-related visual question answering tasks. Our evaluation of state-of-the-art VLMs on CAD-VQA establishes baseline performance levels, providing a framework for advancing VLM capabilities in complex visual reasoning tasks across various fields requiring expert-level visual interpretation. We release the dataset and evaluation codes at \url{https://github.com/asgsaeid/cad_vqa}. | 翻訳日:2024-09-05 21:27:46 公開日:2024-09-03 |
# MMLU-Pro+:LLMにおける高次推論とショートカット学習の評価
MMLU-Pro+: Evaluating Higher-Order Reasoning and Shortcut Learning in LLMs ( http://arxiv.org/abs/2409.02257v1 ) ライセンス: Link先を確認 | Saeid Asgari Taghanaki, Aliasgahr Khani, Amir Khasahmadi, | (参考訳) 大規模言語モデル(LLM)の既存のベンチマークは、パフォーマンスの高いモデル間の差別化にますます苦労しており、より困難な評価フレームワークの必要性を強調している。
LLMにおけるショートカット学習と高次推論を評価するために,MMLU-Proをベースとした拡張ベンチマークであるMMLU-Pro+を導入する。
MMLU-Pro+は、様々な領域にまたがる複数の正解の質問を組み込むことで、複雑な推論にLLMの能力をテストし、単純化された問題解決戦略に抵抗する。
以上の結果から,MMLU-Pro+はMMLU-Proの難易度を維持しつつ,モデル判別の厳密な検証を行ない,特に複数の正解シナリオにおいて行うことが示唆された。
ショートカット選択比や正しいペア識別比といった新しい指標を導入し、モデルの振る舞いとバイアスのアンカーについてより深い洞察を提供する。
最先端の5つのLCMの評価は、推論能力とバイアス感受性のばらつきを顕著に示し、大きなパフォーマンスギャップを浮き彫りにした。
データセットと評価コードは \url{https://github.com/asgsaeid/mmlu-pro-plus} で公開しています。
Existing benchmarks for large language models (LLMs) increasingly struggle to differentiate between top-performing models, underscoring the need for more challenging evaluation frameworks. We introduce MMLU-Pro+, an enhanced benchmark building upon MMLU-Pro to assess shortcut learning and higher-order reasoning in LLMs. By incorporating questions with multiple correct answers across diverse domains, MMLU-Pro+ tests LLMs' ability to engage in complex reasoning and resist simplistic problem-solving strategies. Our results show that MMLU-Pro+ maintains MMLU-Pro's difficulty while providing a more rigorous test of model discrimination, particularly in multi-correct answer scenarios. We introduce novel metrics like shortcut selection ratio and correct pair identification ratio, offering deeper insights into model behavior and anchoring bias. Evaluations of five state-of-the-art LLMs reveal significant performance gaps, highlighting variations in reasoning abilities and bias susceptibility. We release the dataset and evaluation codes at \url{https://github.com/asgsaeid/mmlu-pro-plus}. | 翻訳日:2024-09-05 21:27:46 公開日:2024-09-03 |
# 確率L系推論問題に対する最適L系
Optimal L-Systems for Stochastic L-system Inference Problems ( http://arxiv.org/abs/2409.02259v1 ) ライセンス: Link先を確認 | Ali Lotfi, Ian McQuillan, | (参考訳) 本稿では、確率的リンデンマイヤー系(L-system)推論における2つの開問題に対処する2つの新しい定理を提案し、特に与えられた文字列列を生成することができる最適確率的L-systemの構築に焦点を当てる。
最初の定理は、与えられた単語列を特異導出によって生成する確率を最大化する確率的L-システムを構築する方法を示している。
さらに、第2の定理は、複数の導出可能な単語列を生成する確率が最も高い確率で確率的なL-系を決定する。
そこで本研究では,与えられたシーケンスから最適確率L系を推定するアルゴリズムを提案する。
このアルゴリズムは、内部点法のような洗練された最適化手法を取り入れ、与えられたシーケンスを生成するのに適した確率論的確率L-システムの生成を保証する。
これにより、学習用正のデータのみを使用して機械学習のモデルとして確率的なL-システムを使用することが可能になる。
This paper presents two novel theorems that address two open problems in stochastic Lindenmayer-system (L-system) inference, specifically focusing on the construction of an optimal stochastic L-system capable of generating a given sequence of strings. The first theorem delineates a method for crafting a stochastic L-system that maximizes the likelihood of producing a given sequence of words through a singular derivation. Furthermore, the second theorem determines the stochastic L-systems with the highest probability of producing a given sequence of words with multiple possible derivations. From these, we introduce an algorithm to infer an optimal stochastic L-system from a given sequence. This algorithm incorporates sophisticated optimization techniques, such as interior point methods, ensuring production of a stochastically optimal stochastic L-system suitable for generating the given sequence. This allows for the use of using stochastic L-systems as model for machine learning using only positive data for training. | 翻訳日:2024-09-05 21:27:46 公開日:2024-09-03 |
# ビデオにおけるアクションベースADHD診断
Action-Based ADHD Diagnosis in Video ( http://arxiv.org/abs/2409.02261v1 ) ライセンス: Link先を確認 | Yichun Li, Yuxing Yang, Syed Nohsen Naqvi, | (参考訳) 注意欠陥高活動障害(ADHD)は、様々な領域で重大な障害を引き起こす。
ADHDと治療の早期診断は、生活の質と機能を大幅に改善させる可能性がある。
近年,ADHD診断の精度と効率が向上した。
しかし、既存の方法が必要とする設備や訓練スタッフのコストは概して大きい。
そこで我々は,ADHD診断にビデオベースのフレームレベル行動認識ネットワークを導入した。
また、実際の多モードADHDデータセットを記録し、ADHD診断のためのビデオモダリティから3つのアクションクラスを抽出する。
プロセスデータはすべて、CNTW-NHS Foundation Trustに報告されており、医療コンサルタントや専門家によってレビューされ、今後の公開が予定されている。
Attention Deficit Hyperactivity Disorder (ADHD) causes significant impairment in various domains. Early diagnosis of ADHD and treatment could significantly improve the quality of life and functioning. Recently, machine learning methods have improved the accuracy and efficiency of the ADHD diagnosis process. However, the cost of the equipment and trained staff required by the existing methods are generally huge. Therefore, we introduce the video-based frame-level action recognition network to ADHD diagnosis for the first time. We also record a real multi-modal ADHD dataset and extract three action classes from the video modality for ADHD diagnosis. The whole process data have been reported to CNTW-NHS Foundation Trust, which would be reviewed by medical consultants/professionals and will be made public in due course. | 翻訳日:2024-09-05 21:14:11 公開日:2024-09-03 |
# LSTMSE-Net:音声・視覚音声強調のための長期音声強調ネットワーク
LSTMSE-Net: Long Short Term Speech Enhancement Network for Audio-visual Speech Enhancement ( http://arxiv.org/abs/2409.02266v1 ) ライセンス: Link先を確認 | Arnav Jain, Jasmer Singh Sanjotra, Harshvardhan Choudhary, Krish Agrawal, Rupal Shah, Rohan Jha, M. Sajid, Amir Hussain, M. Tanveer, | (参考訳) 本稿では,長期記憶音声強調ネットワーク(LSTMSE-Net, Audio-visual speech enhancement,AVSE)を提案する。
この手法は、視覚情報と音声情報の相補的な性質を活用し、音声信号の品質を高める。
ビジュアル機能はVisualFeatNet(VFN)で抽出され、オーディオ機能はエンコーダとデコーダを通して処理される。
システムは、視覚的特徴と音声的特徴を拡張・結合し、最適化された音声強調のためにセパレータネットワークを介して処理する。
このアーキテクチャは、堅牢なAVSEチャレンジシステムにマルチモーダルデータと補間技術を活用する進歩を強調している。
LSTMSE-Netの性能は、2024年のCOG-MHEAR AVSE Challengeのベースラインモデルよりも、スケール不変信号-歪み比(SISDR)が0.06ドル、短期客観的インテリジェンス(STOI)が0.03ドル、音声品質(PESQ)が1.32ドルである。
LSTMSE-Net のソースコードは \url{https://github.com/mtanveer1/AVSEC-3-Challenge} で公開されている。
In this paper, we propose long short term memory speech enhancement network (LSTMSE-Net), an audio-visual speech enhancement (AVSE) method. This innovative method leverages the complementary nature of visual and audio information to boost the quality of speech signals. Visual features are extracted with VisualFeatNet (VFN), and audio features are processed through an encoder and decoder. The system scales and concatenates visual and audio features, then processes them through a separator network for optimized speech enhancement. The architecture highlights advancements in leveraging multi-modal data and interpolation techniques for robust AVSE challenge systems. The performance of LSTMSE-Net surpasses that of the baseline model from the COG-MHEAR AVSE Challenge 2024 by a margin of 0.06 in scale-invariant signal-to-distortion ratio (SISDR), $0.03$ in short-time objective intelligibility (STOI), and $1.32$ in perceptual evaluation of speech quality (PESQ). The source code of the proposed LSTMSE-Net is available at \url{https://github.com/mtanveer1/AVSEC-3-Challenge}. | 翻訳日:2024-09-05 21:14:11 公開日:2024-09-03 |
# 傾斜2次元離散格子における量子粒子のリッサホスダイナミクス
Lissajous dynamics of a quantum particle in a tilted two-dimensional discrete lattice ( http://arxiv.org/abs/2409.02268v1 ) ライセンス: Link先を確認 | Grzegorz Jaczewski, Tomasz Sowiński, | (参考訳) 離散2次元傾斜格子における単一粒子の量子力学を古典量子対応の観点から解析する。
格子の傾きが振動力学をもたらすという事実を利用して、格子のパラメータと粒子の初期状態が、進化の過程で、その中心が古典力学で知られているリッサジョウス曲線の軌跡に従っている間に、その確率分布が形を変えないように調整できることを示す。
The quantum dynamics of a single particle in a discrete two-dimensional tilted lattice is analyzed from the perspective of the classical-quantum correspondence. Utilizing the fact that tilting the lattice results in oscillatory dynamics, we show how the parameters of the lattice and the initial state of the particle can be tuned so that during evolution the probability distribution does not change its shape while its center follows the trajectory known in classical mechanics as Lissajous curves. | 翻訳日:2024-09-05 21:14:11 公開日:2024-09-03 |
# ミッションクリティカルな応用のための強化学習型衛星コンステレーション再構成とリタスキング
Reinforcement Learning-enabled Satellite Constellation Reconfiguration and Retasking for Mission-Critical Applications ( http://arxiv.org/abs/2409.02270v1 ) ライセンス: Link先を確認 | Hassan El Alami, Danda B. Rawat, | (参考訳) 衛星コンステレーションの開発は、ユーザ需要の増加、運用コストの削減、技術進歩などにより急速に進んでいる。
しかし、既存の文献における大きなギャップは、我々の研究の主焦点である衛星コンステレーション内の再構成と再タスキングの問題である。
本研究では,衛星故障が星座性能と関連するタスク要求に与える影響を批判的に評価する。
この分析を容易にするために,GPS衛星コンステレーションのシステムモデリング手法を導入し,特にミッションクリティカルな運用中に衛星の故障が発生した場合,性能動態やタスク分散戦略の調査を可能にする。
さらに、衛星コンステレーション管理のための強化学習(RL)技術、特にQ-ラーニング、ポリシーグラディエント、ディープQ-ネットワーク(DQN)、およびPPOを導入し、衛星故障後の再構成やリタスキングによる課題に対処する。
その結果, DQNとPPOは, 平均報酬, タスク完了率, 応答時間で有効な結果が得られることを示した。
The development of satellite constellation applications is rapidly advancing due to increasing user demands, reduced operational costs, and technological advancements. However, a significant gap in the existing literature concerns reconfiguration and retasking issues within satellite constellations, which is the primary focus of our research. In this work, we critically assess the impact of satellite failures on constellation performance and the associated task requirements. To facilitate this analysis, we introduce a system modeling approach for GPS satellite constellations, enabling an investigation into performance dynamics and task distribution strategies, particularly in scenarios where satellite failures occur during mission-critical operations. Additionally, we introduce reinforcement learning (RL) techniques, specifically Q-learning, Policy Gradient, Deep Q-Network (DQN), and Proximal Policy Optimization (PPO), for managing satellite constellations, addressing the challenges posed by reconfiguration and retasking following satellite failures. Our results demonstrate that DQN and PPO achieve effective outcomes in terms of average rewards, task completion rates, and response times. | 翻訳日:2024-09-05 21:14:11 公開日:2024-09-03 |
# 機械学習を用いたビデオにおける動作特性に基づくADHD診断
ADHD diagnosis based on action characteristics recorded in videos using machine learning ( http://arxiv.org/abs/2409.02274v1 ) ライセンス: Link先を確認 | Yichun Li, Syes Mohsen Naqvi, Rajesh Nair, | (参考訳) ADHDの診断・治療の需要は著しく増加しており、既存のサービスはタイムリーに要求を満たすことができない。
そこで本研究では,生ビデオ記録の同定と解析によるADHD診断のための新しい行動認識手法を提案する。
主な貢献は
1) 3台のカメラを通して記録された参加者の注意・過活動・衝動に着目したテストの設計及び実施
2)行動認識ニューラルネットワークに基づく新しい機械学習ADHD診断システムの実装
3)ADHD行動特性の診断結果と分析を提供するための分類基準を提案する。
Demand for ADHD diagnosis and treatment is increasing significantly and the existing services are unable to meet the demand in a timely manner. In this work, we introduce a novel action recognition method for ADHD diagnosis by identifying and analysing raw video recordings. Our main contributions include 1) designing and implementing a test focusing on the attention and hyperactivity/impulsivity of participants, recorded through three cameras; 2) implementing a novel machine learning ADHD diagnosis system based on action recognition neural networks for the first time; 3) proposing classification criteria to provide diagnosis results and analysis of ADHD action characteristics. | 翻訳日:2024-09-05 21:14:11 公開日:2024-09-03 |
# レーザー冷却による1センチスケールトーション振り子
Laser cooling a centimeter-scale torsion pendulum ( http://arxiv.org/abs/2409.02275v1 ) ライセンス: Link先を確認 | Dong-Chel Shin, Tina M. Hayward, Dylan Fife, Rajesh Menon, Vivishek Sudhir, | (参考訳) 室温から10mK(平均6000フォノン占有率)までの1cmスケールのトーション振り子をレーザーで冷却する。
これは、標準量子限界(SQL)において、振り子の角変位を量子ノイズに制限された光学的測定で測定した光放射圧によって達成される。
測定感度は、60dBの空間モードノイズを受動的に拒否する新しい「ミラーレッド」光レバーの結果である。
高い機械的品質(10^7$)と量子ノイズに制限されたサブSQL測定精度は、ねじり運動の量子基底状態を実現するために必要な材料である。
We laser cool a centimeter-scale torsion pendulum to a temperature of 10 mK (average occupancy of 6000 phonons) starting from room temperature (equivalent to $2\times 10^8$ phonons). This is achieved by optical radiation pressure forces conditioned on a quantum-noise-limited optical measurement of the pendulum's angular displacement with an imprecision 13 dB below that at the standard quantum limit (SQL). The measurement sensitivity is the result of a novel `mirrored' optical lever that passively rejects extraneous spatial-mode noise by 60 dB. The high mechanical quality ($10^7$) and quantum-noise-limited sub-SQL measurement imprecision demonstrate the necessary ingredients for realizing the quantum ground state of torsional motion -- a pre-requisite for mechanical tests of gravity's alleged quantum nature. | 翻訳日:2024-09-05 21:14:11 公開日:2024-09-03 |
# 交通工学における視覚言語モデルの評価と比較
Evaluation and Comparison of Visual Language Models for Transportation Engineering Problems ( http://arxiv.org/abs/2409.02278v1 ) ライセンス: Link先を確認 | Sanjita Prajapati, Tanu Singh, Chinmay Hegde, Pranamesh Chakraborty, | (参考訳) 視覚言語モデル(VLM)の最近の進歩は、画像理解に関する多様な応用に大きな可能性を示している。
本研究では,画像分類や物体検出など,視覚に基づく交通工学タスクのための最先端のVLMモデルについて検討した。
画像分類作業は渋滞検出と亀裂識別を伴い, 物体検出ではヘルメット違反が同定された。
我々はCLIP,BLIP,OWL-ViT,Llava-Next,およびクローズドソースGPT-4oといったオープンソースモデルを用いて,これらの最先端のVLMモデルの性能を評価し,視覚に基づく輸送作業における言語理解の能力を活用する。
これらのタスクは、ゼロショットプロンプトをVLMモデルに適用することで実行された。
これにより、アノテーション付きデータセットや特定のタスクの微調整が不要になる。
これらのモデルでは、画像分類タスクのベンチマークである畳み込みニューラルネットワーク(CNN)モデルとの比較結果が得られたが、それでも改善が必要である。
そこで本研究では,将来的な改良と大規模実装の基盤となるモデルの利点と限界を強調した,最先端のVLMモデルの包括的評価を行う。
Recent developments in vision language models (VLM) have shown great potential for diverse applications related to image understanding. In this study, we have explored state-of-the-art VLM models for vision-based transportation engineering tasks such as image classification and object detection. The image classification task involves congestion detection and crack identification, whereas, for object detection, helmet violations were identified. We have applied open-source models such as CLIP, BLIP, OWL-ViT, Llava-Next, and closed-source GPT-4o to evaluate the performance of these state-of-the-art VLM models to harness the capabilities of language understanding for vision-based transportation tasks. These tasks were performed by applying zero-shot prompting to the VLM models, as zero-shot prompting involves performing tasks without any training on those tasks. It eliminates the need for annotated datasets or fine-tuning for specific tasks. Though these models gave comparative results with benchmark Convolutional Neural Networks (CNN) models in the image classification tasks, for object localization tasks, it still needs improvement. Therefore, this study provides a comprehensive evaluation of the state-of-the-art VLM models highlighting the advantages and limitations of the models, which can be taken as the baseline for future improvement and wide-scale implementation. | 翻訳日:2024-09-05 21:14:11 公開日:2024-09-03 |
# K-Origins: ニューラルネットワークにおけるカラー量子化の改善
K-Origins: Better Colour Quantification for Neural Networks ( http://arxiv.org/abs/2409.02281v1 ) ライセンス: Link先を確認 | Lewis Mason, Mark Martinez, | (参考訳) K-Originsは、色や強度を学ぶ際に、画像ベースのネットワークパフォーマンスを改善するように設計されたニューラルネットワーク層である。
250以上のエンコーダ・デコーダの畳み込みネットワークを16ビットの合成データでトレーニングし、K-Originsが2つのシナリオでセマンティックセグメンテーションの精度を改善することを示した。
K-Originsは入力特徴から出力特徴を生成する: $\textbf{X}$, by the equation $\textbf{Y}_k = \textbf{X}-\textbf{J}\cdot w_k$ for each trainable parameters $w_k$, where $\textbf{J}$ is a matrix of one.
さらに、異なる受容場を持つネットワークは、対象クラスの寸法に基づいて最適なネットワーク深さを決定するために訓練され、受容場の長さが対象サイズを超えることが示唆された。
K-Originsを組み込むことで、十分な受容場長を確保することで、セマンティックネットワークの性能を向上させることができる。
K-Origins is a neural network layer designed to improve image-based network performances when learning colour, or intensities, is beneficial. Over 250 encoder-decoder convolutional networks are trained and tested on 16-bit synthetic data, demonstrating that K-Origins improves semantic segmentation accuracy in two scenarios: object detection with low signal-to-noise ratios, and segmenting multiple objects that are identical in shape but vary in colour. K-Origins generates output features from the input features, $\textbf{X}$, by the equation $\textbf{Y}_k = \textbf{X}-\textbf{J}\cdot w_k$ for each trainable parameter $w_k$, where $\textbf{J}$ is a matrix of ones. Additionally, networks with varying receptive fields were trained to determine optimal network depths based on the dimensions of target classes, suggesting that receptive field lengths should exceed object sizes. By ensuring a sufficient receptive field length and incorporating K-Origins, we can achieve better semantic network performance. | 翻訳日:2024-09-05 21:14:11 公開日:2024-09-03 |
# 生化学的前立腺癌再発予測:高速・低速で考える
Biochemical Prostate Cancer Recurrence Prediction: Thinking Fast & Slow ( http://arxiv.org/abs/2409.02284v1 ) ライセンス: Link先を確認 | Suhang You, Sanyukta Adap, Siddhesh Thakur, Bhakti Baheti, Spyridon Bakas, | (参考訳) 前立腺癌の生化学的再発時期は前立腺切除術後の進行の予後モニタリングに不可欠であり,手術の有効性を評価する。
本研究では,2段階の‘高速な‘&スロー’戦略を反復予測(TTR)に用いて,複数のインスタンス学習を活用する方法を提案する。
第1段階("thinking fast'')は生化学的再発に最も関係のあるWSI領域を見つけ、第2段階("thinking slow'')は高分解能パッチを活用してTTRを予測する。
内部検証では平均C-index(Ci$)が0.733(\theta=0.059$)、LEOPARDチャレンジ検証セットでは$Ci=0.603(Ci=0.603$)となる。
ホック後の注意の可視化は、最も注意すべき領域がTTR予測に寄与していることを示している。
Time to biochemical recurrence in prostate cancer is essential for prognostic monitoring of the progression of patients after prostatectomy, which assesses the efficacy of the surgery. In this work, we proposed to leverage multiple instance learning through a two-stage ``thinking fast \& slow'' strategy for the time to recurrence (TTR) prediction. The first (``thinking fast'') stage finds the most relevant WSI area for biochemical recurrence and the second (``thinking slow'') stage leverages higher resolution patches to predict TTR. Our approach reveals a mean C-index ($Ci$) of 0.733 ($\theta=0.059$) on our internal validation and $Ci=0.603$ on the LEOPARD challenge validation set. Post hoc attention visualization shows that the most attentive area contributes to the TTR prediction. | 翻訳日:2024-09-05 21:14:11 公開日:2024-09-03 |
# オーディオ・ビデオによる非監督溶接欠陥検出
Unsupervised Welding Defect Detection Using Audio And Video ( http://arxiv.org/abs/2409.02290v1 ) ライセンス: Link先を確認 | Georg Stemmer, Jose A. Lopez, Juan A. Del Hoyo Ontiveros, Arvind Raju, Tara Thimmanaik, Sovan Biswas, | (参考訳) 本研究では,ロボット溶接へのAIの適用について検討する。
ロボット溶接は多くの産業で広く使われている技術であるが、現在は溶接プロセスの様々な理由により導入される溶接欠陥を検出する能力がない。
マイクロホンとカメラで溶接プロセスを記録することにより,溶接欠陥をリアルタイムに検出する深層学習手法について述べる。
本研究は, 溶接タイプ, 材料, 各種欠陥カテゴリを網羅した4000以上の溶接試料を収集した大規模データベースをベースとした。
すべてのディープラーニングモデルは、潜在的な欠陥の空間が大きく、データの欠陥にはバイアスが含まれているため、教師なしの方法でトレーニングされます。
溶接欠陥の殆どのカテゴリの信頼性の高いリアルタイム検出は、オーディオとビデオの両方から可能であり、両モードの組み合わせによる改善が達成されていることを実証する。
具体的には、データ中の11種類の欠陥に対して平均エリアアンダーROC-Curve(AUC)が0.92である。
本論文は,欠陥型による結果の分析と今後の研究の議論で締めくくった。
In this work we explore the application of AI to robotic welding. Robotic welding is a widely used technology in many industries, but robots currently do not have the capability to detect welding defects which get introduced due to various reasons in the welding process. We describe how deep-learning methods can be applied to detect weld defects in real-time by recording the welding process with microphones and a camera. Our findings are based on a large database with more than 4000 welding samples we collected which covers different weld types, materials and various defect categories. All deep learning models are trained in an unsupervised fashion because the space of possible defects is large and the defects in our data may contain biases. We demonstrate that a reliable real-time detection of most categories of weld defects is feasible both from audio and video, with improvements achieved by combining both modalities. Specifically, the multi-modal approach achieves an average Area-under-ROC-Curve (AUC) of 0.92 over all eleven defect types in our data. We conclude the paper with an analysis of the results by defect type and a discussion of future work. | 翻訳日:2024-09-05 21:14:11 公開日:2024-09-03 |
# 再帰的開発・意思決定システム(CAIRDD)による創造的人工知能の初期開発と評価
Initial Development and Evaluation of the Creative Artificial Intelligence through Recurring Developments and Determinations (CAIRDD) System ( http://arxiv.org/abs/2409.02291v1 ) ライセンス: Link先を確認 | Jeremy Straub, Zach Johnson, | (参考訳) コンピュータシステムの創造性は、人工知能(AGI)への道のりの重要なステップである。
しかし、人間の創造性が完全には理解されていないため、この能力をソフトウェアで開発することは困難である。
大型言語モデル (LLMs) は創造性と感覚の出現のファクシミリを提供するが、実際は創造的でも知覚的でもない。
LLMは新しい内容を生み出す一方で、有害な幻覚など、不注意にその意図的な創造性は、人間のものと一致しないものと見なされる。
この課題に対応するために,本論文では,概念注入・精錬の反復的プロセスを通じてLCM出力の創造性を向上する手法を提案する。
本稿では,CAIRDD(Crecurring Developments and determineds)システムによる創造的人工知能(Creative Artificial Intelligence)の開発について概説し,キーシステムコンポーネントの有効性を評価する。
Computer system creativity is a key step on the pathway to artificial general intelligence (AGI). It is elusive, however, due to the fact that human creativity is not fully understood and, thus, it is difficult to develop this capability in software. Large language models (LLMs) provide a facsimile of creativity and the appearance of sentience, while not actually being either creative or sentient. While LLMs have created bona fide new content, in some cases - such as with harmful hallucinations - inadvertently, their deliberate creativity is seen by some to not match that of humans. In response to this challenge, this paper proposes a technique for enhancing LLM output creativity via an iterative process of concept injection and refinement. Initial work on the development of the Creative Artificial Intelligence through Recurring Developments and Determinations (CAIRDD) system is presented and the efficacy of key system components is evaluated. | 翻訳日:2024-09-05 21:14:11 公開日:2024-09-03 |
# RAMBO: コンピュータRAMからカバー無線信号を発信することで、エアギャップコンピュータから機密情報を漏洩する
RAMBO: Leaking Secrets from Air-Gap Computers by Spelling Covert Radio Signals from Computer RAM ( http://arxiv.org/abs/2409.02292v1 ) ライセンス: Link先を確認 | Mordechai Guri, | (参考訳) エアバッグシステムは、インターネットを含む外部ネットワークから物理的に分離されている。
この分離は、有線または無線ネットワークからエアギャップコンピュータを切断し、他のデバイスやネットワークとの直接またはリモート通信を防ぐことで達成される。
防空対策は、セキュリティと隔離が重要であり、プライベートおよび機密情報の漏洩を防止するために、センシティブな環境で用いられる。
本稿では,敵が空襲されたコンピュータから情報を漏らす攻撃について述べる。
コンピュータ上のマルウェアがメモリバス(RAM)から電波を発生させることができることを示す。
マルウェアはソフトウェアが生成した無線信号を使用すれば、ファイル、画像、キーログ、生体情報、暗号化キーなどの機密情報をエンコードすることができる。
ソフトウェア定義無線(SDR)ハードウェアと単純なオフ・ザ・シェルフアンテナにより、攻撃者は遠くから送信された生の無線信号を傍受することができる。
その後、信号は復号化されバイナリ情報に変換される。
本稿では,設計と実装について論じ,関連する作業と評価結果について述べる。
本稿では,1000ビット/秒で空調されたコンピュータからデータをリークする高速な修正手法を提案する。
最後に,この帯域外エアギャップの脅威を軽減する対策を提案する。
Air-gapped systems are physically separated from external networks, including the Internet. This isolation is achieved by keeping the air-gap computers disconnected from wired or wireless networks, preventing direct or remote communication with other devices or networks. Air-gap measures may be used in sensitive environments where security and isolation are critical to prevent private and confidential information leakage. In this paper, we present an attack allowing adversaries to leak information from air-gapped computers. We show that malware on a compromised computer can generate radio signals from memory buses (RAM). Using software-generated radio signals, malware can encode sensitive information such as files, images, keylogging, biometric information, and encryption keys. With software-defined radio (SDR) hardware, and a simple off-the-shelf antenna, an attacker can intercept transmitted raw radio signals from a distance. The signals can then be decoded and translated back into binary information. We discuss the design and implementation and present related work and evaluation results. This paper presents fast modification methods to leak data from air-gapped computers at 1000 bits per second. Finally, we propose countermeasures to mitigate this out-of-band air-gap threat. | 翻訳日:2024-09-05 21:14:11 公開日:2024-09-03 |
# 歌声深度検出(CtrSVDD)チャレンジ2024のための音声基礎モデルアンサンブル
Speech Foundation Model Ensembles for the Controlled Singing Voice Deepfake Detection (CtrSVDD) Challenge 2024 ( http://arxiv.org/abs/2409.02302v1 ) ライセンス: Link先を確認 | Anmol Guragain, Tianchi Liu, Zihan Pan, Hardik B. Sailor, Qiongqiong Wang, | (参考訳) 本研究は,制御された歌声深度検出 (CtrSVDD) の評価セットに基づいて,1.79%のプール等度誤り率 (EER) で先行システムを実現するためのアプローチを詳述する。
生成AIモデルの急速な進歩は、AIが生成するディープフェイクの歌声を検出する上で重要な課題を示し、研究の注目を集めている。
Singing Voice Deepfake Detection (SVDD) Challenge 2024は、この複雑な課題に対処することを目的としている。
本研究では,音声基礎モデルを用いてアンサンブル法を探索し,ロバストな歌声アンチ・スプーフィングシステムの開発を行う。
また, 音声基礎モデルからの表現特徴を効率よく, 効果的に統合し, 他システムの性能を超越した新しいSqueeze-and-Excitation Aggregation(SEA)手法を提案する。
評価結果は,ディープフェイク歌声の検出におけるアプローチの有効性を確認した。
コードはhttps://github.com/Anmol2059/SVDD2024でアクセスできる。
This work details our approach to achieving a leading system with a 1.79% pooled equal error rate (EER) on the evaluation set of the Controlled Singing Voice Deepfake Detection (CtrSVDD). The rapid advancement of generative AI models presents significant challenges for detecting AI-generated deepfake singing voices, attracting increased research attention. The Singing Voice Deepfake Detection (SVDD) Challenge 2024 aims to address this complex task. In this work, we explore the ensemble methods, utilizing speech foundation models to develop robust singing voice anti-spoofing systems. We also introduce a novel Squeeze-and-Excitation Aggregation (SEA) method, which efficiently and effectively integrates representation features from the speech foundation models, surpassing the performance of our other individual systems. Evaluation results confirm the efficacy of our approach in detecting deepfake singing voices. The codes can be accessed at https://github.com/Anmol2059/SVDD2024. | 翻訳日:2024-09-05 21:14:11 公開日:2024-09-03 |
# 敗血症後失語症患者の言語能力予測のための病変認識エッジベースグラフニューラルネットワーク
A Lesion-aware Edge-based Graph Neural Network for Predicting Language Ability in Patients with Post-stroke Aphasia ( http://arxiv.org/abs/2409.02303v1 ) ライセンス: Link先を確認 | Zijian Chen, Maria Varkanitsa, Prakash Ishwar, Janusz Konrad, Margrit Betke, Swathi Kiran, Archana Venkataraman, | (参考訳) 本稿では,脳卒中後失語症患者の安静時fMRI(r-fMRI)接続から言語能力を予測するために,病変認識型グラフニューラルネットワーク(LEGNet)を提案する。
本モデルでは,脳領域間の機能的接続を符号化するエッジベース学習モジュール,病変符号化モジュール,機能的類似性を利用して予測を行うサブグラフ学習モジュールの3つのコンポーネントを統合する。
我々は,Human Connectome Project(HCP)から得られた合成データを用いて,ハイパーパラメータチューニングとモデル事前学習を行う。
その後,脳卒中後失語症例の神経画像データセットを用いて10倍のクロスバリデーションを繰り返して評価した。
その結果,LEGNetは言語能力の予測において,ベースラインのディープラーニング手法よりも優れていた。
LEGNetはまた、わずかに異なるニューロイメージングプロトコルで取得された第2の社内データセットでテストすると、優れた一般化能力を示す。
本研究は,脳病変をともなう患者において,RS-fMRI接続性と言語能力の関係を効果的に学習する上で,LEGNetが有用であることを示すものである。
We propose a lesion-aware graph neural network (LEGNet) to predict language ability from resting-state fMRI (rs-fMRI) connectivity in patients with post-stroke aphasia. Our model integrates three components: an edge-based learning module that encodes functional connectivity between brain regions, a lesion encoding module, and a subgraph learning module that leverages functional similarities for prediction. We use synthetic data derived from the Human Connectome Project (HCP) for hyperparameter tuning and model pretraining. We then evaluate the performance using repeated 10-fold cross-validation on an in-house neuroimaging dataset of post-stroke aphasia. Our results demonstrate that LEGNet outperforms baseline deep learning methods in predicting language ability. LEGNet also exhibits superior generalization ability when tested on a second in-house dataset that was acquired under a slightly different neuroimaging protocol. Taken together, the results of this study highlight the potential of LEGNet in effectively learning the relationships between rs-fMRI connectivity and language ability in a patient cohort with brain lesions for improved post-stroke aphasia evaluation. | 翻訳日:2024-09-05 21:14:11 公開日:2024-09-03 |
# QID$^2$:DWIデータのQ空間アップサンプリングのための画像合成拡散モデル
QID$^2$: An Image-Conditioned Diffusion Model for Q-space Up-sampling of DWI Data ( http://arxiv.org/abs/2409.02309v1 ) ライセンス: Link先を確認 | Zijian Chen, Jueqi Wang, Archana Venkataraman, | (参考訳) 低角分解能画像から高角分解能拡散強調画像(DWI)を推定するための画像条件拡散モデルを提案する。
我々のモデルはQID$^2$と呼ばれ、低角分解能DWIデータを入力として、この情報を用いて目標勾配方向に関連するDWIデータを推定する。
我々は、参照画像の位置情報を保存し、さらにターゲット画像生成を導くために、クロスアテンションを持つU-Netアーキテクチャを利用する。
我々は,Human Connectome Project (HCP)データセットから得られたシングルシェルDWIサンプルに対して,QID$^2$をトレーニングし,評価する。
具体的には、HCP勾配方向をサブサンプリングし、低角分解能DWIデータを生成し、QID$^2$をトレーニングし、欠落した高角分解能サンプルを再構成する。
QID$^2$と最先端の2つのGANモデルを比較した。
以上の結果から、QID$^2$は高品質な生成画像を実現するだけでなく、複数のメトリクスにわたって下流テンソル推定において、GANモデルよりも一貫して優れていることが示された。
本研究は,Q-space up-sampling における拡散モデルの可能性,特に QID$^2$ に着目し,臨床および研究応用に有望なツールキットを提供する。
We propose an image-conditioned diffusion model to estimate high angular resolution diffusion weighted imaging (DWI) from a low angular resolution acquisition. Our model, which we call QID$^2$, takes as input a set of low angular resolution DWI data and uses this information to estimate the DWI data associated with a target gradient direction. We leverage a U-Net architecture with cross-attention to preserve the positional information of the reference images, further guiding the target image generation. We train and evaluate QID$^2$ on single-shell DWI samples curated from the Human Connectome Project (HCP) dataset. Specifically, we sub-sample the HCP gradient directions to produce low angular resolution DWI data and train QID$^2$ to reconstruct the missing high angular resolution samples. We compare QID$^2$ with two state-of-the-art GAN models. Our results demonstrate that QID$^2$ not only achieves higher-quality generated images, but it consistently outperforms the GAN models in downstream tensor estimation across multiple metrics. Taken together, this study highlights the potential of diffusion models, and QID$^2$ in particular, for q-space up-sampling, thus offering a promising toolkit for clinical and research applications. | 翻訳日:2024-09-05 21:14:11 公開日:2024-09-03 |
# 動きからの大規模構造に対する幾何学的特徴マッチング
Geometry-aware Feature Matching for Large-Scale Structure from Motion ( http://arxiv.org/abs/2409.02310v1 ) ライセンス: Link先を確認 | Gonglin Chen, Jinsen Wu, Haiwei Chen, Wenbin Teng, Zhiyuan Gao, Andrew Feng, Rongjun Qin, Yajie Zhao, | (参考訳) 複数の画像に一貫した密接な対応を確立することは、Structure from Motion (SfM)システムにとって重要である。
非常にスパースなビューオーバーラップを持つ空対地のような重要なビュー変更は、対応解決者にとってさらに大きな課題を生じさせる。
カラーキューに加えて幾何学的キューを導入することにより,既存の特徴マッチング手法を大幅に強化する,新しい最適化手法を提案する。
これにより、大規模なシナリオの重複が少なくなると、ギャップを埋めることができます。
本手法は, 幾何検定を最適化問題として定式化し, 検出器フリー法における特徴マッチングを導出し, 検出器ベース法からのスパース対応をアンカーポイントとして用いる。
Sampson Distance を用いて幾何学的制約を強制することにより、検出器なし法からのより密度の高い対応が幾何的に一貫し、より正確であることを保証する。
このハイブリッド戦略は、対応密度と精度を大幅に改善し、マルチビューの不整合を緩和し、カメラの精度と点雲密度を顕著に向上させる。
ベンチマークデータセットにおける最先端の機能マッチングメソッドよりも優れており、極端な大規模設定で機能マッチングを可能にする。
Establishing consistent and dense correspondences across multiple images is crucial for Structure from Motion (SfM) systems. Significant view changes, such as air-to-ground with very sparse view overlap, pose an even greater challenge to the correspondence solvers. We present a novel optimization-based approach that significantly enhances existing feature matching methods by introducing geometry cues in addition to color cues. This helps fill gaps when there is less overlap in large-scale scenarios. Our method formulates geometric verification as an optimization problem, guiding feature matching within detector-free methods and using sparse correspondences from detector-based methods as anchor points. By enforcing geometric constraints via the Sampson Distance, our approach ensures that the denser correspondences from detector-free methods are geometrically consistent and more accurate. This hybrid strategy significantly improves correspondence density and accuracy, mitigates multi-view inconsistencies, and leads to notable advancements in camera pose accuracy and point cloud density. It outperforms state-of-the-art feature matching methods on benchmark datasets and enables feature matching in challenging extreme large-scale settings. | 翻訳日:2024-09-05 20:51:59 公開日:2024-09-03 |
# 時間依存型PDEのモデリングにおけるメモリの有用性について
On the Benefits of Memory for Modeling Time-Dependent PDEs ( http://arxiv.org/abs/2409.02313v1 ) ライセンス: Link先を確認 | Ricardo Buitrago Ruiz, Tanya Marwah, Albert Gu, Andrej Risteski, | (参考訳) データ駆動技術は、偏微分方程式(PDE)を解く従来の数値法に代わる有望な方法として登場した。
これらの技術は、多くのPDEファミリの計算コストと精度のトレードオフをよく提供します。
時間に依存したPDEの場合、既存の方法論はPDEをマルコフ系として扱うのが一般的である。
しかし、例えば、離散化やローパスフィルタリングによる入力信号の歪みは、歪んだ信号の非マルコフ信号の進化を招きかねない。
本研究は, モリ・ズワンツィヒ理論によるモデル縮小の動機付けとして, PDEをモデル化するためのメモリを用いたアーキテクチャの影響について考察する。
本稿では,最近のSSMアーキテクチャに基づくネットワークであるメモリニューラル演算子(MemNO)とフーリエニューラル演算子(FNO)を紹介する。
我々は、低解像度グリッド上で入力が与えられると、MemNOはメモリ無しでベースラインを著しく上回り、目に見えないPDEの6倍以上の誤差を達成できる、様々なPDEファミリを経験的に実証した。
理論と実験の組み合わせにより、PDEの解が高周波フーリエ成分(例えば低粘度流体力学)を持つ場合、メモリの効果は特に重要であり、観測ノイズに対するロバスト性も向上することを示した。
Data-driven techniques have emerged as a promising alternative to traditional numerical methods for solving partial differential equations (PDEs). These techniques frequently offer a better trade-off between computational cost and accuracy for many PDE families of interest. For time-dependent PDEs, existing methodologies typically treat PDEs as Markovian systems, i.e., the evolution of the system only depends on the ``current state'', and not the past states. However, distortion of the input signals -- e.g., due to discretization or low-pass filtering -- can render the evolution of the distorted signals non-Markovian. In this work, motivated by the Mori-Zwanzig theory of model reduction, we investigate the impact of architectures with memory for modeling PDEs: that is, when past states are explicitly used to predict the future. We introduce Memory Neural Operator (MemNO), a network based on the recent SSM architectures and Fourier Neural Operator (FNO). We empirically demonstrate on a variety of PDE families of interest that when the input is given on a low-resolution grid, MemNO significantly outperforms the baselines without memory, achieving more than 6 times less error on unseen PDEs. Via a combination of theory and experiments, we show that the effect of memory is particularly significant when the solution of the PDE has high frequency Fourier components (e.g., low-viscosity fluid dynamics), and it also increases robustness to observation noise. | 翻訳日:2024-09-05 20:51:59 公開日:2024-09-03 |
# TimeDiT:時系列基礎モデルのための汎用拡散変換器
TimeDiT: General-purpose Diffusion Transformers for Time Series Foundation Model ( http://arxiv.org/abs/2409.02322v1 ) ライセンス: Link先を確認 | Defu Cao, Wen Ye, Yizhou Zhang, Yan Liu, | (参考訳) 近年,テキストやビデオデータの基礎モデルの構築が進み,時系列の基礎モデルへの関心が高まっている。
時間的自己回帰生成型トランスフォーマーアーキテクチャを応用したモデル群が開発され,その有効性は大規模言語モデルで証明されている。
実証的な結果は有望だが、既存の時系列の基礎モデルは、テキストと非常によく似た '`benchmark''' データセットでのみテストされている。
しかし、実世界の時系列は、ドメイン間の可変チャネルサイズ、欠落値、および実世界のデータの多重解像度の性質に起因する様々な信号サンプリング間隔など、ユニークな課題を示す。
さらに、時間的に自己回帰的復号化の一方向的性質は、偏微分方程式(PDE)として表される物理法則のような領域知識の包含を制限する。
これらの課題に対処するために,時間拡散変換器(Time Diffusion Transformer, TimeDiT)を導入する。
TimeDiTはTransformerアーキテクチャを活用して時間的依存関係をキャプチャし、拡散プロセスを用いて、新しいマスキングスキームとチャネルアライメント戦略を通じて、ターゲット分布に厳密な仮定を課すことなく、高品質な候補サンプルを生成する。
さらに,モデルパラメータを更新することなく,サンプリングプロセス中に外部知識をシームレスに統合するファインタニングフリーモデル編集手法を提案する。
TimeDiTの有効性を実証するために,予測,計算,異常検出などのタスクの多種多様な実験を行った。
With recent advances in building foundation models for texts and video data, there is a surge of interest in foundation models for time series. A family of models have been developed, utilizing a temporal auto-regressive generative Transformer architecture, whose effectiveness has been proven in Large Language Models. While the empirical results are promising, almost all existing time series foundation models have only been tested on well-curated ``benchmark'' datasets very similar to texts. However, real-world time series exhibit unique challenges, such as variable channel sizes across domains, missing values, and varying signal sampling intervals due to the multi-resolution nature of real-world data. Additionally, the uni-directional nature of temporally auto-regressive decoding limits the incorporation of domain knowledge, such as physical laws expressed as partial differential equations (PDEs). To address these challenges, we introduce the Time Diffusion Transformer (TimeDiT), a general foundation model for time series that employs a denoising diffusion paradigm instead of temporal auto-regressive generation. TimeDiT leverages the Transformer architecture to capture temporal dependencies and employs diffusion processes to generate high-quality candidate samples without imposing stringent assumptions on the target distribution via novel masking schemes and a channel alignment strategy. Furthermore, we propose a finetuning-free model editing strategy that allows the seamless integration of external knowledge during the sampling process without updating any model parameters. Extensive experiments conducted on a varity of tasks such as forecasting, imputation, and anomaly detection, demonstrate the effectiveness of TimeDiT. | 翻訳日:2024-09-05 20:51:59 公開日:2024-09-03 |
# ロボットオンオービテーションのためのビジュアルサーボ
Visual Servoing for Robotic On-Orbit Servicing: A Survey ( http://arxiv.org/abs/2409.02324v1 ) ライセンス: Link先を確認 | Lina María Amaya-Mejía, Mohamed Ghita, Jan Dentler, Miguel Olivares-Mendez, Carol Martinez, | (参考訳) OOS(On-Orbit servicing)活動は、宇宙の持続可能な探査と商業化のための次の大きなステップとなるだろう。
自律型OOSオペレーションのためのロボット機能の開発は、宇宙産業にとって最優先事項である。
視覚サーボ(VS)により、ロボットはモーションコントロールに視覚情報を利用することで、重要なOOSミッションに必要な正確な操作を実現することができる。
本稿では、宇宙マニピュレータシステム(SMS)を用いた自動OOS操作のための既存のVSアプローチの概要について述べる。
我々は、ロボットOOSミッションの典型的なフェーズへの貢献に応じて、アプローチを分割する。
a) 認識; 認識
b) アプローチ,及び
c) 接触。
また、レビューされたVSアプローチに関する議論を行い、現在のトレンドを特定します。
最後に,ロボットOOSのVS技術に関する今後の研究課題と課題について述べる。
On-orbit servicing (OOS) activities will power the next big step for sustainable exploration and commercialization of space. Developing robotic capabilities for autonomous OOS operations is a priority for the space industry. Visual Servoing (VS) enables robots to achieve the precise manoeuvres needed for critical OOS missions by utilizing visual information for motion control. This article presents an overview of existing VS approaches for autonomous OOS operations with space manipulator systems (SMS). We divide the approaches according to their contribution to the typical phases of a robotic OOS mission: a) Recognition, b) Approach, and c) Contact. We also present a discussion on the reviewed VS approaches, identifying current trends. Finally, we highlight the challenges and areas for future research on VS techniques for robotic OOS. | 翻訳日:2024-09-05 20:51:59 公開日:2024-09-03 |
# Arctic-SnowCoder: コード事前トレーニングにおける高品質データのデマイズ
Arctic-SnowCoder: Demystifying High-Quality Data in Code Pretraining ( http://arxiv.org/abs/2409.02326v1 ) ライセンス: Link先を確認 | Yuxiang Wei, Hojae Han, Rajhans Samdani, | (参考訳) 近年の研究では、高品質なデータが言語モデルの効果的な事前訓練に欠かせないことが証明されている。
しかし、「高品質」の正確な定義はいまだ未定である。
1)500B標準品質のコードトークンを前処理し、基本的なフィルタリング、デデュース、デコンタミネーションを施し、(2)50B高品質のトークンを継続事前トレーニングする。(2) BERTスタイルの品質アノテータでフェーズ1から選択され、高品質のコードファイルからの正の例を使用し、MagicoderとStarCoder2-Instructの命令データと、(3) Llam-31-70Bが生成した5B合成データを使って、2つのデータに適応する。
限られたデータセットでトレーニングされているにもかかわらず、Arctic-SnowCoderは、実用的で挑戦的なプログラミングタスクに焦点を当てたコーディングベンチマークであるBigCodeBenchの最先端のパフォーマンスを達成している。
全ての評価されたベンチマークで、アークティック・スノウコーダー-1.3Bは1Tトークンで事前訓練されたスターコーダーBase-3Bを上回った。
さらに、数兆単位のトークンでトレーニングされた、主要な小さなベースコードモデルのパフォーマンスとも一致します。
例えば、Arctic-SnowCoder-1.3Bは、関数レベルのコード生成を評価し、BigCodeBenchと競合するベンチマークであるHumanEval+上で、3.3Tトークンで事前訓練されたStarCoder2-3Bを上回っている。
本評価では,アークティックスノウコーダの様々な設計選択を正当化する包括的解析を行う。
最も重要な点として、高品質なデータの鍵は、下流アプリケーションの分散と一致していることが分かります。
Recent studies have been increasingly demonstrating that high-quality data is crucial for effective pretraining of language models. However, the precise definition of "high-quality" remains underexplored. Focusing on the code domain, we introduce Arctic-SnowCoder-1.3B, a data-efficient base code model pretrained on 555B tokens through three phases of progressively refined data: (1) general pretraining with 500B standard-quality code tokens, preprocessed through basic filtering, deduplication, and decontamination, (2) continued pretraining with 50B high-quality tokens, selected from phase one by a BERT-style quality annotator trained to distinguish good code from random data, using positive examples drawn from high-quality code files, along with instruction data from Magicoder and StarCoder2-Instruct, and (3) enhanced pretraining with 5B synthetic data created by Llama-3.1-70B using phase two data as seeds, adapting the Magicoder approach for pretraining. Despite being trained on a limited dataset, Arctic-SnowCoder achieves state-of-the-art performance on BigCodeBench, a coding benchmark focusing on practical and challenging programming tasks, compared to similarly sized models trained on no more than 1T tokens, outperforming Phi-1.5-1.3B by 36%. Across all evaluated benchmarks, Arctic-SnowCoder-1.3B beats StarCoderBase-3B pretrained on 1T tokens. Additionally, it matches the performance of leading small base code models trained on trillions of tokens. For example, Arctic-SnowCoder-1.3B surpasses StarCoder2-3B, pretrained on over 3.3T tokens, on HumanEval+, a benchmark that evaluates function-level code generation, and remains competitive on BigCodeBench. Our evaluation presents a comprehensive analysis justifying various design choices for Arctic-SnowCoder. Most importantly, we find that the key to high-quality data is its alignment with the distribution of downstream applications. | 翻訳日:2024-09-05 20:51:59 公開日:2024-09-03 |
# 変分推論による生成主成分回帰
Generative Principal Component Regression via Variational Inference ( http://arxiv.org/abs/2409.02327v1 ) ライセンス: Link先を確認 | Austin Talbot, Corey J Keller, David E Carlson, Alex V Kotlar, | (参考訳) 脳などの複雑なシステムを操作して特定の結果を修正する能力は、特に精神疾患の治療において大きな意味を持つ。
適切な操作を設計するための1つのアプローチは、予測モデルの重要な特徴をターゲットとすることである。
確率的主成分分析(PPCA)のような生成的潜伏変数モデルは、目標を特定する強力なツールであるが、低分散結果に関連する情報を潜伏空間に組み込むのに苦労している。
このようなシナリオにおいて、刺激対象が潜在空間上に設計される場合、介入は最小限の有効性で最適である。
この問題に対処するため,教師付き変分オートエンコーダ(SVAE)をベースとして,そのような情報を潜時空間で表現する新たな目的を開発する。
PPCAのような線形モデルでは,生成主成分回帰(gPCR)と呼ばれる新しい目的が利用できる。
シミュレーションでは,gPCRは通常のPCRやSVAEと比較して,操作時のターゲット選択を劇的に改善することを示した。
これらのシミュレーションの一環として,負荷に関連情報が適切に組み込まれていないことを検知する指標を開発した。
次に、ストレスと社会的行動に関連する2つのニューラルネットワークにおいて、gPCRが予測性能でPCRを劇的に上回り、SVAEがローディングに関連情報が組み込まれていないことを示す。
本研究は,提案手法により,競合推定方式よりも潜在変数モデルを用いた操作対象の選択が大幅に改善されることを示唆する。
The ability to manipulate complex systems, such as the brain, to modify specific outcomes has far-reaching implications, particularly in the treatment of psychiatric disorders. One approach to designing appropriate manipulations is to target key features of predictive models. While generative latent variable models, such as probabilistic principal component analysis (PPCA), is a powerful tool for identifying targets, they struggle incorporating information relevant to low-variance outcomes into the latent space. When stimulation targets are designed on the latent space in such a scenario, the intervention can be suboptimal with minimal efficacy. To address this problem, we develop a novel objective based on supervised variational autoencoders (SVAEs) that enforces such information is represented in the latent space. The novel objective can be used with linear models, such as PPCA, which we refer to as generative principal component regression (gPCR). We show in simulations that gPCR dramatically improves target selection in manipulation as compared to standard PCR and SVAEs. As part of these simulations, we develop a metric for detecting when relevant information is not properly incorporated into the loadings. We then show in two neural datasets related to stress and social behavior in which gPCR dramatically outperforms PCR in predictive performance and that SVAEs exhibit low incorporation of relevant information into the loadings. Overall, this work suggests that our method significantly improves target selection for manipulation using latent variable models over competitor inference schemes. | 翻訳日:2024-09-05 20:51:59 公開日:2024-09-03 |
# 顧客行動の因果的影響を予測するためのスケールでのダブル機械学習
Double Machine Learning at Scale to Predict Causal Impact of Customer Actions ( http://arxiv.org/abs/2409.02332v1 ) ライセンス: Link先を確認 | Sushant More, Priya Kotwal, Sujith Chappidi, Dinesh Mandalapu, Chris Khawand, | (参考訳) 顧客行動の因果的影響(CI)は、様々なタイプの短期的および長期的な投資決定を通知するために、業界全体で広く利用されている。
本稿では、二重機械学習(DML)手法を用いて、ビジネス関心の100件の顧客行動と100万件の顧客行動のCI値を推定する。
私たちはDMLをSparkベースの因果的MLライブラリを通じて運用し、フレキシブルでJSON駆動のモデル構成アプローチを使用して、大規模なCI(数百のアクションと数百万の顧客)を見積もっています。
DMLの方法論と実装、および従来型の潜在的成果に基づくCIモデルに対する関連するメリットについて概説する。
我々は、信頼区間とともに、人口レベルと顧客レベルのCI値を示す。
検証基準はベースライン法よりも2.2%向上し、計算時間は2.5倍向上した。
当社のコントリビューションは、CIのスケーラブルなアプリケーションを推進すると同時に、より高速な実験、クロスプラットフォームのサポート、新たなユースケースの導入、パートナーチームに対する基盤となるコードへのアクセス性の向上を可能にするインターフェースの提供にあります。
Causal Impact (CI) of customer actions are broadly used across the industry to inform both short- and long-term investment decisions of various types. In this paper, we apply the double machine learning (DML) methodology to estimate the CI values across 100s of customer actions of business interest and 100s of millions of customers. We operationalize DML through a causal ML library based on Spark with a flexible, JSON-driven model configuration approach to estimate CI at scale (i.e., across hundred of actions and millions of customers). We outline the DML methodology and implementation, and associated benefits over the traditional potential outcomes based CI model. We show population-level as well as customer-level CI values along with confidence intervals. The validation metrics show a 2.2% gain over the baseline methods and a 2.5X gain in the computational time. Our contribution is to advance the scalable application of CI, while also providing an interface that allows faster experimentation, cross-platform support, ability to onboard new use cases, and improves accessibility of underlying code for partner teams. | 翻訳日:2024-09-05 20:51:59 公開日:2024-09-03 |
# YoloTag:視覚ベースのロバストUAVナビゲーション
YoloTag: Vision-based Robust UAV Navigation with Fiducial Markers ( http://arxiv.org/abs/2409.02334v1 ) ライセンス: Link先を確認 | Sourav Raxit, Simant Bahadur Singh, Abdullah Al Redwan Newaz, | (参考訳) 環境の視覚的ランドマークとして画像マーカーを活用することで、無人航空機(UAV)は正確な地図を迅速に構築し、安全かつ効率的に空間をナビゲートすることができる。
既存の画像マーカー手法は手作りの特徴抽出に依存しており、精度を犠牲にしている。
一方、マーカー検出のためのディープラーニングパイプラインは、ナビゲーションアプリケーションに不可欠なリアルタイムランタイム制約を満たしていない。
そこで本研究では,リアルタイムなフィデューシャルマーカーに基づくローカライゼーションシステムであるYoloTag \textemdashを提案する。
YoloTagは、軽量のYOLO v8オブジェクト検出器を使用して、ナビゲーションに必要なランタイム制約を満たしながら、画像中のフィデューシャルマーカーを正確に検出する。
検出されたマーカーは、UAV状態を推定するために効率的な視点-n-pointアルゴリズムによって使用される。
しかし、この局所化システムはノイズを導入し、軌道追跡の不安定性を引き起こす。
雑音を抑制するため、周波数領域解析によりノイズを効果的に除去する高次バターワースフィルタを設計する。
室内環境における実ロボット実験により,提案手法の軌跡追跡性能と他の手法との比較を行った。
By harnessing fiducial markers as visual landmarks in the environment, Unmanned Aerial Vehicles (UAVs) can rapidly build precise maps and navigate spaces safely and efficiently, unlocking their potential for fluent collaboration and coexistence with humans. Existing fiducial marker methods rely on handcrafted feature extraction, which sacrifices accuracy. On the other hand, deep learning pipelines for marker detection fail to meet real-time runtime constraints crucial for navigation applications. In this work, we propose YoloTag \textemdash a real-time fiducial marker-based localization system. YoloTag uses a lightweight YOLO v8 object detector to accurately detect fiducial markers in images while meeting the runtime constraints needed for navigation. The detected markers are then used by an efficient perspective-n-point algorithm to estimate UAV states. However, this localization system introduces noise, causing instability in trajectory tracking. To suppress noise, we design a higher-order Butterworth filter that effectively eliminates noise through frequency domain analysis. We evaluate our algorithm through real-robot experiments in an indoor environment, comparing the trajectory tracking performance of our method against other approaches in terms of several distance metrics. | 翻訳日:2024-09-05 20:51:59 公開日:2024-09-03 |
# 共通して見るものは何か? 進化的特性を明らかにするために人生の樹上で階層的なプロトタイプを学ぶ
What Do You See in Common? Learning Hierarchical Prototypes over Tree-of-Life to Discover Evolutionary Traits ( http://arxiv.org/abs/2409.02335v1 ) ライセンス: Link先を確認 | Harish Babu Manogaran, M. Maruf, Arka Daw, Kazi Sajeed Mehrab, Caleb Patrick Charpentier, Josef C. Uyeda, Wasila Dahdul, Matthew J Thompson, Elizabeth G Campolongo, Kaiya L Provost, Paula M. Mabee, Hilmar Lapp, Anuj Karpatne, | (参考訳) 生物学における大きな課題は、進化的な特徴(生物の樹(系統樹とも呼ばれる)に共通の祖先を持つ種群に共通する生物の特徴)を発見することである。
画像リポジトリが生物学で利用可能になるにつれ、プロトタイプの階層構造という形で、画像から直接進化的な特徴を発見する大きな機会があります。
しかし、現行のプロトタイプベースの手法は、主にフラットなクラス構造上で動作するよう設計されており、内部ノードで過剰な特化機能を学ぶことを含む、階層的なプロトタイプを発見する際のいくつかの課題に直面している。
これらの課題を克服するために,プロトタイプネットワーク(HComP-Net)による階層整合共通性(Commonality)の枠組みを導入する。
我々は、HComP-Netが、鳥類、蝶、魚のデータセットのベースラインと比較して、正確に、意味的に一貫性があり、目に見えない種に対して一般化可能なプロトタイプを学習していることを実証的に示す。
コードとデータセットはhttps://github.com/Imageomics/HComPNetで公開されている。
A grand challenge in biology is to discover evolutionary traits - features of organisms common to a group of species with a shared ancestor in the tree of life (also referred to as phylogenetic tree). With the growing availability of image repositories in biology, there is a tremendous opportunity to discover evolutionary traits directly from images in the form of a hierarchy of prototypes. However, current prototype-based methods are mostly designed to operate over a flat structure of classes and face several challenges in discovering hierarchical prototypes, including the issue of learning over-specific features at internal nodes. To overcome these challenges, we introduce the framework of Hierarchy aligned Commonality through Prototypical Networks (HComP-Net). We empirically show that HComP-Net learns prototypes that are accurate, semantically consistent, and generalizable to unseen species in comparison to baselines on birds, butterflies, and fishes datasets. The code and datasets are available at https://github.com/Imageomics/HComPNet. | 翻訳日:2024-09-05 20:51:59 公開日:2024-09-03 |
# ロボットソノグラフィーのコーチング:スパース専門家のフィードバックによる超音波の学習
Coaching a Robotic Sonographer: Learning Robotic Ultrasound with Sparse Expert's Feedback ( http://arxiv.org/abs/2409.02337v1 ) ライセンス: Link先を確認 | Deepak Raina, Mythra V. Balakuntala, Byung Wook Kim, Juan Wachs, Richard Voyles, | (参考訳) 超音波は、非侵襲的、放射線のない、リアルタイムイメージングを提供することの利点から、臨床介入や診断に広く用いられている。
しかし、この厳密な手順のアクセシビリティは、オペレーターに必要な相当な訓練と専門知識のために制限されている。
ロボット超音波(RUS)は、この制限に対処するための実行可能なソリューションを提供する。
実演法(LfD)の学習は RUS で行われており、これは専門家ソノグラフィーのメンタルモデルを符号化するオフラインな実演のデータセットから事前にポリシーを学習している。
しかしながら、RASの訓練中、専門家の活発な関与、すなわちコーチングは、これまで検討されていない。
コーチングは、人間のトレーニングにおける効率性とパフォーマンスを向上させることで知られている。
本稿では, RUS の性能向上のためのコーチングフレームワークを提案する。
このフレームワークは、DRL(self-supervised practice)と、コーチングによるスパース専門家のフィードバックを組み合わせたものだ。
DRLは、画像品質のレーティングに基づく報酬として、オフポリティのSoft Actor-Critic (SAC)ネットワークを使用している。
専門家によるコーチングは、専門家による修正に基づいてポリシーパラメータを更新する部分観測可能なマルコフ決定プロセス(POMDP)としてモデル化されている。
ファントムに対する検証調査では、コーチングは学習率を25\%$に向上し、高品質の画像取得の回数は74.5\%$に増加した。
Ultrasound is widely employed for clinical intervention and diagnosis, due to its advantages of offering non-invasive, radiation-free, and real-time imaging. However, the accessibility of this dexterous procedure is limited due to the substantial training and expertise required of operators. The robotic ultrasound (RUS) offers a viable solution to address this limitation; nonetheless, achieving human-level proficiency remains challenging. Learning from demonstrations (LfD) methods have been explored in RUS, which learns the policy prior from a dataset of offline demonstrations to encode the mental model of the expert sonographer. However, active engagement of experts, i.e. Coaching, during the training of RUS has not been explored thus far. Coaching is known for enhancing efficiency and performance in human training. This paper proposes a coaching framework for RUS to amplify its performance. The framework combines DRL (self-supervised practice) with sparse expert's feedback through coaching. The DRL employs an off-policy Soft Actor-Critic (SAC) network, with a reward based on image quality rating. The coaching by experts is modeled as a Partially Observable Markov Decision Process (POMDP), which updates the policy parameters based on the correction by the expert. The validation study on phantoms showed that coaching increases the learning rate by $25\%$ and the number of high-quality image acquisition by $74.5\%$. | 翻訳日:2024-09-05 20:51:59 公開日:2024-09-03 |
# MedUnA:医療画像分類のためのビジョン言語モデルの教師なし適応に関する言語ガイド
MedUnA: Language guided Unsupervised Adaptation of Vision-Language Models for Medical Image Classification ( http://arxiv.org/abs/2409.02729v1 ) ライセンス: Link先を確認 | Umaima Rahman, Raza Imam, Dwarikanath Mahapatra, Boulbaba Ben Amor, | (参考訳) 医用画像分類では,ラベル付き医用画像が欠如しているため,教師あり学習が困難である。
事前学習の伝統的な \textit{modus operandi} とは対照的に、この研究は教師なし学習を促進するためにビジョンランゲージモデル(\texttt{VLMs})内の視覚的・テキスト的アライメントを活用する。
具体的には、アダプタ事前学習(Adapter Pre-training)とアントラクタラーニング(Unsupervised Learning)という2段階のトレーニングを構成する、 \underline{Med}ical \underline{Un}supervised \underline{A}daptation (\textt{MedUnA})を提案する。
最初の段階では、クラスラベルに対応するLarge Language Model (\texttt{LLM}) によって生成された記述を使用し、テキストエンコーダ \texttt{BioBERT} に渡される。
結果のテキスト埋め込みは、軽量な \texttt{adapter} をトレーニングすることで、クラスラベルと整列する。
我々は、拡張されたテキスト埋め込みを得るために、詳細でコンテキストに関連のある記述を生成することができるため、 \texttt{\textt{LLMs}}を選択する。
第二段階では、訓練された \texttt{adapter} は \texttt{MedCLIP} のビジュアルエンコーダと統合される。
このステージでは、対照的なエントロピーに基づく損失と、視覚的な埋め込みを調整するための迅速なチューニングが採用されている。
自己エントロピーの最小化を総合的な学習目標に組み込んで、効果的な教師なし学習とアライメントに欠かせない、より確実な埋め込みを保証する。
胸部X線, 眼底, 皮膚病変画像の3種類のデータモダリティについて, textt{MedUnA} の評価を行った。
その結果, 異なるデータセット間のベースラインと比較すると, 平均精度が有意に向上し, 提案手法の有効性が明らかとなった。
In medical image classification, supervised learning is challenging due to the lack of labeled medical images. Contrary to the traditional \textit{modus operandi} of pre-training followed by fine-tuning, this work leverages the visual-textual alignment within Vision-Language models (\texttt{VLMs}) to facilitate the unsupervised learning. Specifically, we propose \underline{Med}ical \underline{Un}supervised \underline{A}daptation (\texttt{MedUnA}), constituting two-stage training: Adapter Pre-training, and Unsupervised Learning. In the first stage, we use descriptions generated by a Large Language Model (\texttt{LLM}) corresponding to class labels, which are passed through the text encoder \texttt{BioBERT}. The resulting text embeddings are then aligned with the class labels by training a lightweight \texttt{adapter}. We choose \texttt{\texttt{LLMs}} because of their capability to generate detailed, contextually relevant descriptions to obtain enhanced text embeddings. In the second stage, the trained \texttt{adapter} is integrated with the visual encoder of \texttt{MedCLIP}. This stage employs a contrastive entropy-based loss and prompt tuning to align visual embeddings. We incorporate self-entropy minimization into the overall training objective to ensure more confident embeddings, which are crucial for effective unsupervised learning and alignment. We evaluate the performance of \texttt{MedUnA} on three different kinds of data modalities - chest X-rays, eye fundus and skin lesion images. The results demonstrate significant accuracy gain on average compared to the baselines across different datasets, highlighting the efficacy of our approach. | 翻訳日:2024-09-05 17:55:43 公開日:2024-09-03 |
# 学習表現を用いた高次元変数の相互情報の近似
Approximating mutual information of high-dimensional variables using learned representations ( http://arxiv.org/abs/2409.02732v1 ) ライセンス: Link先を確認 | Gokul Gowri, Xiao-Kang Lun, Allon M. Klein, Peng Yin, | (参考訳) 相互情報(英: Mutual Information、MI)は、科学全般に広く応用されている統計的依存の一般的な尺度である。
しかし,多次元変数間のMI推定は,精度の高い推定尺度に収束するために必要なサンプルの数が,次元性に不利な結果をもたらすため,困難である。
実際には、既存の手法は、数十次元までのMIを確実に推定できるが、十分なサンプルサイズが実現不可能な高次元では失敗する。
本稿では,高次元データにおける下層の低次元構造を有効利用して,実測値の高次元設定におけるMIを忠実に近似できるという考えを考察する。
そこで我々は,非パラメトリックMI推定器を,シンプルな理論的動機付けモデルアーキテクチャで学習した低次元表現に適用した潜在MI近似 (LMI) 法を開発した。
いくつかのベンチマークを用いて、LMIは従来の手法とは異なり、従属構造が内在次元が低い場合、$>10^3$の変数に対してMIをうまく近似できることを示した。
最後に,生物学における2つのオープンな問題についてLMIを紹介する。
まず、相互作用するタンパク質のタンパク質言語モデル(pLM)表現間のMIを近似し、pLMがタンパク質とタンパク質の相互作用に関する非自明な情報を符号化していることを示す。
第2に、造血幹細胞の単細胞RNA-seq(scRNA-seq)測定に含まれる細胞運命情報を定量化し、scRNA-seqによって捕捉された細胞運命情報が劇的に増加すると好中球分化が急激な遷移を示す。
Mutual information (MI) is a general measure of statistical dependence with widespread application across the sciences. However, estimating MI between multi-dimensional variables is challenging because the number of samples necessary to converge to an accurate estimate scales unfavorably with dimensionality. In practice, existing techniques can reliably estimate MI in up to tens of dimensions, but fail in higher dimensions, where sufficient sample sizes are infeasible. Here, we explore the idea that underlying low-dimensional structure in high-dimensional data can be exploited to faithfully approximate MI in high-dimensional settings with realistic sample sizes. We develop a method that we call latent MI (LMI) approximation, which applies a nonparametric MI estimator to low-dimensional representations learned by a simple, theoretically-motivated model architecture. Using several benchmarks, we show that unlike existing techniques, LMI can approximate MI well for variables with $> 10^3$ dimensions if their dependence structure has low intrinsic dimensionality. Finally, we showcase LMI on two open problems in biology. First, we approximate MI between protein language model (pLM) representations of interacting proteins, and find that pLMs encode non-trivial information about protein-protein interactions. Second, we quantify cell fate information contained in single-cell RNA-seq (scRNA-seq) measurements of hematopoietic stem cells, and find a sharp transition during neutrophil differentiation when fate information captured by scRNA-seq increases dramatically. | 翻訳日:2024-09-05 17:55:43 公開日:2024-09-03 |
# 低音源言語のための視覚的接地音声モデルと認知モデル
Visually Grounded Speech Models for Low-resource Languages and Cognitive Modelling ( http://arxiv.org/abs/2409.02865v1 ) ライセンス: Link先を確認 | Leanne Nortje, | (参考訳) この論文は、画像と組み合わせた未認識音声から学習する視覚的接地音声(VGS)モデルを調べる。
低リソース言語のためのアプリケーションと、人間の言語習得を理解することに焦点を当てている。
画像を用いた音声中のキーワードの検出とローカライズを行うために,視覚的に誘導されるキーワードローカライゼーションというタスクを導入する。
本稿では,Yorubaのような低リソース言語に対する数ショット学習シナリオにおいて,VGSモデルの有効性を示す。
さらに,VGSモデルの相互排他バイアスについて検討する。
我々の単言語VGSモデルは、このバイアスを呈するが、多言語主義は、このVGSモデルの偏見に、子供の観察と同じような影響を与えないことがわかった。
This dissertation examines visually grounded speech (VGS) models that learn from unlabelled speech paired with images. It focuses on applications for low-resource languages and understanding human language acquisition. We introduce a task called visually prompted keyword localisation to detect and localise keywords in speech using images. We demonstrate the effectiveness of VGS models in few-shot learning scenarios for low-resource languages like Yoruba. Additionally, we examine the mutual exclusivity bias in VGS models. Our monolingual VGS model exhibits this bias, but we found that multilingualism does not affect the bias in this VGS model similarly to what is observed in children. | 翻訳日:2024-09-05 16:52:09 公開日:2024-09-03 |
# 不特定スペクトルアルゴリズムの最適性について
On the Optimality of Misspecified Spectral Algorithms ( http://arxiv.org/abs/2303.14942v3 ) ライセンス: Link先を確認 | Haobo Zhang, Yicheng Li, Qian Lin, | (参考訳) 誤ったスペクトルアルゴリズム問題では、研究者は通常、地下の真関数 $f_{\rho}^{*} \in [\mathcal{H}]^{s}$, 再生されたカーネルヒルベルト空間(RKHS)$\mathcal{H}$ を、ある$s\in (0,1)$ と仮定する。
既存の minimax の最適結果は $\|f_{\rho}^{*}\|_{L^{\infty}}<\infty$ が暗黙的に$s > \alpha_{0}$ ここで $\alpha_{0}\in (0,1)$ は埋め込みインデックスであり、$\mathcal{H}$ に依存する定数である。
スペクトルアルゴリズムがすべての$s\in (0,1)$に対して最適であるかどうかは、何年も続く未解決の問題である。
本稿では、スペクトルアルゴリズムが任意の$\alpha_{0}-\frac{1}{\beta} < s < 1$, ここでは$\beta$は$\mathcal{H}$の固有値減衰率であることを示す。
埋め込みインデックスが $ \alpha_0 = \frac{1}{\beta} $ を満たす RKHS のクラスもいくつか用意する。
したがって、スペクトルアルゴリズムはこれらのRKHS上のすべての$s\in (0,1)$に対して最小値である。
In the misspecified spectral algorithms problem, researchers usually assume the underground true function $f_{\rho}^{*} \in [\mathcal{H}]^{s}$, a less-smooth interpolation space of a reproducing kernel Hilbert space (RKHS) $\mathcal{H}$ for some $s\in (0,1)$. The existing minimax optimal results require $\|f_{\rho}^{*}\|_{L^{\infty}}<\infty$ which implicitly requires $s > \alpha_{0}$ where $\alpha_{0}\in (0,1)$ is the embedding index, a constant depending on $\mathcal{H}$. Whether the spectral algorithms are optimal for all $s\in (0,1)$ is an outstanding problem lasting for years. In this paper, we show that spectral algorithms are minimax optimal for any $\alpha_{0}-\frac{1}{\beta} < s < 1$, where $\beta$ is the eigenvalue decay rate of $\mathcal{H}$. We also give several classes of RKHSs whose embedding index satisfies $ \alpha_0 = \frac{1}{\beta} $. Thus, the spectral algorithms are minimax optimal for all $s\in (0,1)$ on these RKHSs. | 翻訳日:2024-09-04 22:54:55 公開日:2024-09-03 |
# TagCLIP:オープンボキャブラリセマンティックセグメンテーションの識別能力の向上
TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic Segmentation ( http://arxiv.org/abs/2304.07547v2 ) ライセンス: Link先を確認 | Jingyao Li, Pengguang Chen, Shengju Qian, Shu Liu, Jiaya Jia, | (参考訳) 対照的に、CLIP(Contrastive Language- Image Pre-Training)は、最近、ピクセルレベルのゼロショット学習タスクにおいて大きな可能性を示している。
しかし、CLIPのテキストとパッチの埋め込みを利用してセマンティックマスクを生成する既存のアプローチは、しばしば目に見えないクラスから入力ピクセルを誤識別し、新しいクラスとセマンティックに類似するものを混同する。
本稿では,TagCLIP(Trusty-aware guideed CLIP)という新しいアプローチを提案し,この問題に対処する。
我々は,不適切な最適化問題を,個別に行うセマンティックマッチングと,識別能力向上のための信頼性判定の2つの並列プロセスに分解する。
文レベルの埋め込みを表す言語モデリングにおける特別なトークンのアイデアに基づいて、予測において既知のクラスと新しいクラスを区別できる信頼トークンを導入する。
提案手法を評価するため,PASCAL VOC 2012,COCO-Stuff 164K,PASCALコンテキストの2つのベンチマークデータセットを用いて実験を行った。
以上の結果から,TagCLIPは未確認クラスのIoU(Intersection over Union)をそれぞれ7.4%,1.7%,2.1%改善し,オーバーヘッドは無視できることがわかった。
コードはhttps://github.com/dvlab-research/TagCLIPで入手できる。
Contrastive Language-Image Pre-training (CLIP) has recently shown great promise in pixel-level zero-shot learning tasks. However, existing approaches utilizing CLIP's text and patch embeddings to generate semantic masks often misidentify input pixels from unseen classes, leading to confusion between novel classes and semantically similar ones. In this work, we propose a novel approach, TagCLIP (Trusty-aware guided CLIP), to address this issue. We disentangle the ill-posed optimization problem into two parallel processes: semantic matching performed individually and reliability judgment for improving discrimination ability. Building on the idea of special tokens in language modeling representing sentence-level embeddings, we introduce a trusty token that enables distinguishing novel classes from known ones in prediction. To evaluate our approach, we conduct experiments on two benchmark datasets, PASCAL VOC 2012, COCO-Stuff 164K and PASCAL Context. Our results show that TagCLIP improves the Intersection over Union (IoU) of unseen classes by 7.4%, 1.7% and 2.1%, respectively, with negligible overheads. The code is available at https://github.com/dvlab-research/TagCLIP. | 翻訳日:2024-09-04 22:54:55 公開日:2024-09-03 |
# 協調グループ:雑音アノテーションからの合意学習による画像検索
Collaborative Group: Composed Image Retrieval via Consensus Learning from Noisy Annotations ( http://arxiv.org/abs/2306.02092v2 ) ライセンス: Link先を確認 | Xu Zhang, Zhedong Zheng, Linchao Zhu, Yi Yang, | (参考訳) コンポジション画像検索は,ユーザの意図を記述した参照画像やキャプションを検索することで,コンテンツベースの画像検索システムを拡張する。
識別的視覚言語的特徴を抽出する画像テキスト合成装置の開発において大きな進歩があったが, 難解な問題である三重項曖昧さが特徴抽出の頑健さを損なう。
トリプルト曖昧性(トリプルトあいさ、英: Triplet ambiguity)とは、参照画像、相対キャプション、ターゲット画像の間に生じる意味あいさの一種である。
主に注釈付きテキストの表現が限られているため、複数の視覚的に異なる候補画像が同一の参照対(つまり、参照画像+相対キャプション)にマッチできる、ノイズの多い三つ子が多い。
この課題に対処するために,集団が個人を上回る心理的概念に触発されたコンセンサスネットワーク(Css-Net)を提案する。
Css-Netは, コンセンサスモジュールと4つのコンセンサスモジュールから構成され, それぞれ異なる画像テキストの埋め込みを生成し, 相補的特徴抽出の促進, バイアスのあるコンセンサスへの依存性の緩和, コンセンサス出力を促進するためのコンセンサス相互作用の学習を促進するKulback-Leibler分散損失の2つのコアコンポーネントから構成される。
評価中、4つのコンプレッサーの判断は重み付け方式によって組み合わせられ、全体的な合意が強化される。
ベンチマークデータセット、特にFashionIQでは、Css-Netが大幅に改善されている。
特に、R@10が2.77%、R@50が6.67%増加し、既存の手法の基本的な限界に対処する際の競争力を強調している。
Composed image retrieval extends content-based image retrieval systems by enabling users to search using reference images and captions that describe their intention. Despite great progress in developing image-text compositors to extract discriminative visual-linguistic features, we identify a hitherto overlooked issue, triplet ambiguity, which impedes robust feature extraction. Triplet ambiguity refers to a type of semantic ambiguity that arises between the reference image, the relative caption, and the target image. It is mainly due to the limited representation of the annotated text, resulting in many noisy triplets where multiple visually dissimilar candidate images can be matched to an identical reference pair (i.e., a reference image + a relative caption). To address this challenge, we propose the Consensus Network (Css-Net), inspired by the psychological concept that groups outperform individuals. Css-Net comprises two core components: (1) a consensus module with four diverse compositors, each generating distinct image-text embeddings, fostering complementary feature extraction and mitigating dependence on any single, potentially biased compositor; (2) a Kullback-Leibler divergence loss that encourages learning of inter-compositor interactions to promote consensual outputs. During evaluation, the decisions of the four compositors are combined through a weighting scheme, enhancing overall agreement. On benchmark datasets, particularly FashionIQ, Css-Net demonstrates marked improvements. Notably, it achieves significant recall gains, with a 2.77% increase in R@10 and 6.67% boost in R@50, underscoring its competitiveness in addressing the fundamental limitations of existing methods. | 翻訳日:2024-09-04 22:54:55 公開日:2024-09-03 |
# 非自明なエリアオペレータは非局所魔法を必要とする
Non-trivial Area Operators Require Non-local Magic ( http://arxiv.org/abs/2306.14996v2 ) ライセンス: Link先を確認 | ChunJun Cao, | (参考訳) 任意の局所次元上の安定化符号は、ある符号部分代数が非自明な中心を含む場合でも、物理的自由度を二分する非自明な領域演算子をサポートできないことを示す。
この結論はまた、論理作用素が特定の分解特性を満たすより一般的な量子符号にまで拡張され、例えば、量子ビットを符号化し、優れたユニタリ基底を形成する超越論理ゲートをサポートする相補的な符号を含む。
これらの結果は、耐障害性に望ましい条件が創発的な重力と緊張しているという観察を支持し、非局所的な「魔術」が重力のバック反応と量子上面の公式の再現に重要な役割を果たすことを示唆している。
我々は、no-go結果を回避するために必要な条件についてコメントし、非自明な領域演算子を持つ非安定化器符号の単純な例について検討する。
We show that no stabilizer codes over any local dimension can support a non-trivial area operator for any bipartition of the physical degrees of freedom even if certain code subalgebras contain non-trivial centers. This conclusion also extends to more general quantum codes whose logical operators satisfy certain factorization properties, including any complementary code that encodes qubits and supports transversal logical gates that form a nice unitary basis. These results support the observation that some desirable conditions for fault tolerance are in tension with emergent gravity and suggest that non-local "magic" would play an important role in reproducing features of gravitational back-reaction and the quantum extremal surface formula. We comment on conditions needed to circumvent the no-go result and examine some simple instances of non-stabilizer codes that do have non-trivial area operators. | 翻訳日:2024-09-04 22:44:54 公開日:2024-09-03 |
# RefSAM: ビデオオブジェクトのセグメンテーションを参照するためのセグメンテーションモデルに効果的に適応する
RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation ( http://arxiv.org/abs/2307.00997v3 ) ライセンス: Link先を確認 | Yonglin Li, Jing Zhang, Xiao Teng, Long Lan, Xinwang Liu, | (参考訳) Segment Anything Model (SAM) は画像セグメンテーションにおける顕著な性能で注目されている。
しかし、正確なユーザ対話的なプロンプトが必要であり、言語や視覚といった様々なモダリティの理解が限られているため、ビデオオブジェクトセグメンテーション(RVOS)を参照する能力に欠ける。
本稿では,様々なモダリティや連続フレームの多視点情報を異なるタイムスタンプでオンラインに組み込むことにより,RVOS用SAMの可能性を探るRefSAMモデルを提案する。
提案手法は,参照表現のテキスト埋め込みを疎密な埋め込みにプロンプトとして投影する軽量なクロスモーダルMLPを用いることで,モダリティ学習を強化するためにオリジナルのSAMモデルに適応する。
さらに、階層的な視覚的セマンティック情報と疎埋め込みを融合して細粒度密埋め込みを得る階層密集モジュールと、追跡トークンを生成する暗黙追跡モジュールを導入し、マスクデコーダの履歴情報を提供する。
さらに,言語と視覚の特徴を効果的に調整・融合するために,パラメータ効率の調整手法を用いる。
包括的アブレーション研究を通じて,本モデルの実用的かつ効果的な設計選択を実証する。
Refer-Youtube-VOS、Ref-DAVIS17、および3つの参照画像セグメンテーションデータセットによる大規模な実験により、既存の手法よりもRefSAMモデルの優位性と有効性を検証した。
The Segment Anything Model (SAM) has gained significant attention for its impressive performance in image segmentation. However, it lacks proficiency in referring video object segmentation (RVOS) due to the need for precise user-interactive prompts and a limited understanding of different modalities, such as language and vision. This paper presents the RefSAM model, which explores the potential of SAM for RVOS by incorporating multi-view information from diverse modalities and successive frames at different timestamps in an online manner. Our proposed approach adapts the original SAM model to enhance cross-modality learning by employing a lightweight Cross-Modal MLP that projects the text embedding of the referring expression into sparse and dense embeddings, serving as user-interactive prompts. Additionally, we have introduced the hierarchical dense attention module to fuse hierarchical visual semantic information with sparse embeddings to obtain fine-grained dense embeddings, and an implicit tracking module to generate a tracking token and provide historical information for the mask decoder. Furthermore, we employ a parameter-efficient tuning strategy to align and fuse the language and vision features effectively. Through comprehensive ablation studies, we demonstrate our model's practical and effective design choices. Extensive experiments conducted on Refer-Youtube-VOS, Ref-DAVIS17, and three referring image segmentation datasets validate the superiority and effectiveness of our RefSAM model over existing methods. | 翻訳日:2024-09-04 22:44:54 公開日:2024-09-03 |
# 金融取引決済の最適化における指数ビット削減
Exponential Qubit Reduction in Optimization for Financial Transaction Settlement ( http://arxiv.org/abs/2307.07193v3 ) ライセンス: Link先を確認 | Elias X. Huber, Benjamin Y. L. Tan, Paul R. Griffin, Dimitris G. Angelakis, | (参考訳) 我々は、[Tan et al , Quantum 5, 454 (2021)]で提示された量子ビット効率の符号化を拡張し、規制金融取引所が提供するデータから構築された金融取引決済問題の事例に適用する。
本手法は線形不等式制約のある任意のQUBO問題に対して直接適用可能である。
従来提案した手法の拡張は,相関をエンコードする量子ビット数の変化の単純化と,対称性を組み込んだ新しい種類の変分回路により,サンプリングオーバーヘッドを低減し,数値安定性を向上し,Hermitianオブザーバブルとしてのコスト目標表現を復元する。
また,実世界のデータの分散を低減し,連続スラック変数を置換する最適保存法を提案する。
16のトランザクションからなる問題に対して,本手法を標準QAOAに対してベンチマークし,競争結果を得た。
新たに提案した変分アンザッツは, 全体的な性能が良好である。
実量子ハードウェアにおける128のトランザクションの問題に対処し、NISQハードウェアによってバウンドされた以前の結果の約2桁を超える問題を実証する。
We extend the qubit-efficient encoding presented in [Tan et al., Quantum 5, 454 (2021)] and apply it to instances of the financial transaction settlement problem constructed from data provided by a regulated financial exchange. Our methods are directly applicable to any QUBO problem with linear inequality constraints. Our extension of previously proposed methods consists of a simplification in varying the number of qubits used to encode correlations as well as a new class of variational circuits which incorporate symmetries, thereby reducing sampling overhead, improving numerical stability and recovering the expression of the cost objective as a Hermitian observable. We also propose optimality-preserving methods to reduce variance in real-world data and substitute continuous slack variables. We benchmark our methods against standard QAOA for problems consisting of 16 transactions and obtain competitive results. Our newly proposed variational ansatz performs best overall. We demonstrate tackling problems with 128 transactions on real quantum hardware, exceeding previous results bounded by NISQ hardware by almost two orders of magnitude. | 翻訳日:2024-09-04 22:44:54 公開日:2024-09-03 |
# イベントカメラ用非同期ブロブトラッカー
Asynchronous Blob Tracker for Event Cameras ( http://arxiv.org/abs/2307.10593v2 ) ライセンス: Link先を確認 | Ziwei Wang, Timothy Molloy, Pieter van Goor, Robert Mahony, | (参考訳) イベントベースのカメラは、高時間分解能、低レイテンシ、高ダイナミックレンジのために、高速で動く物体を追跡するのに人気がある。
本稿では,生イベントをリアルタイムに非同期に追跡する新しいアルゴリズムを提案する。
本稿では,イベントブロブの概念を,条件空間の確率がブロブ様である事象発生の時空間的確率として導入する。
車のヘッドライトのような現実世界の多くのオブジェクトや、素早く動くフォアグラウンドオブジェクトは、イベントブロブデータを生成する。
提案アルゴリズムは,データアソシエーションのダイナミックしきい値と,イベントブロブ状態を追跡するために拡張カルマンフィルタを併用した近傍分類器を用いる。
提案アルゴリズムは, 高精度なブロブ追跡, 速度推定, 形状推定を, 難解な照明条件や高速動作(>11000ピクセル/秒)下でも実現している。
マイクロ秒の時間分解は、フィルタ出力を用いて時間対接触や距離推定などの二次情報を導出し、自律運転における衝突回避などの現実的な問題に応用できることを意味している。
Event-based cameras are popular for tracking fast-moving objects due to their high temporal resolution, low latency, and high dynamic range. In this paper, we propose a novel algorithm for tracking event blobs using raw events asynchronously in real time. We introduce the concept of an event blob as a spatio-temporal likelihood of event occurrence where the conditional spatial likelihood is blob-like. Many real-world objects such as car headlights or any quickly moving foreground objects generate event blob data. The proposed algorithm uses a nearest neighbour classifier with a dynamic threshold criteria for data association coupled with an extended Kalman filter to track the event blob state. Our algorithm achieves highly accurate blob tracking, velocity estimation, and shape estimation even under challenging lighting conditions and high-speed motions (> 11000 pixels/s). The microsecond time resolution achieved means that the filter output can be used to derive secondary information such as time-to-contact or range estimation, that will enable applications to real-world problems such as collision avoidance in autonomous driving. | 翻訳日:2024-09-04 22:44:54 公開日:2024-09-03 |
# アクティブ量子群
Active quantum flocks ( http://arxiv.org/abs/2308.01603v2 ) ライセンス: Link先を確認 | Reyhaneh Khasseh, Sascha Wald, Roderich Moessner, Christoph A. Weber, Markus Heyl, | (参考訳) 動物の群れは、鳥類のような構成員が、まるで1つの実体であるかのように行動や行動を行う、マクロ古典世界で魅力的な集団行動の典型である。
ここでは、量子レベルでの微視的世界においても、群れが形成できるかどうかという未解決の問題に対処する。
そこで我々は, 1次元格子上に活性量子粒子のモデル群を定式化することにより, 活性量子物質の概念を導入する。
これらの系が量子群を生じさせるという解析的および大規模な数値的証拠を提供する。
鍵となる発見は、これらの群は古典的な群とは異なり、長距離にわたって強い量子コヒーレンスを発達させることにより、異なる量子的性質を示すことである。
我々は、Rydberg原子配列で量子群を実験的に観測できることを提案する。
我々の研究は、量子物質系における生物活性粒子の集合的挙動を実現するための道を開いた。
これは、独特な性質を持つ非平衡量子多体系の、まだ完全に探索されていないクラスへの道を開くことを期待する。
Flocks of animals represent a fascinating archetype of collective behavior in the macroscopic classical world, where the constituents, such as birds, concertedly perform motions and actions as if being one single entity. Here, we address the outstanding question of whether flocks can also form in the microscopic world at the quantum level. For that purpose, we introduce the concept of active quantum matter by formulating a class of models of active quantum particles on a one-dimensional lattice. We provide both analytical and large-scale numerical evidence that these systems can give rise to quantum flocks. A key finding is that these flocks, unlike classical ones, exhibit distinct quantum properties by developing strong quantum coherence over long distances. We propose that quantum flocks could be experimentally observed in Rydberg atom arrays. Our work paves the way towards realizing the intriguing collective behaviors of biological active particles in quantum matter systems. We expect that this opens up a path towards a yet totally unexplored class of nonequilibrium quantum many-body systems with unique properties. | 翻訳日:2024-09-04 22:44:54 公開日:2024-09-03 |
# 時間的深層学習による細胞追跡の強化
Enhancing Cell Tracking with a Time-Symmetric Deep Learning Approach ( http://arxiv.org/abs/2308.03887v3 ) ライセンス: Link先を確認 | Gergely Szabó, Paolo Bonaiuti, Andrea Ciliberto, András Horváth, | (参考訳) ビデオ顕微鏡記録を用いたライブセルの正確な追跡は、一般的な最先端の画像処理に基づくオブジェクト追跡手法では難しい課題である。
近年、いくつかの既存および新しいアプリケーションがディープラーニングベースのフレームワークをこのタスクに統合しようと試みているが、その多くは、アーキテクチャや一般的な学習を妨げる他の前提に埋め込まれた連続的なフレームベースのトラッキングに大きく依存している。
この問題に対処するため,我々は,セルを時空間的に連続的なフレームに制限することなく,セルを時空間で追跡できるという仮定にのみ依存する,新しいディープラーニングベースの追跡手法を開発することを目的とした。
提案手法は, 事前の仮定なしに, セルの運動パターンを予測器で完全に学習できるという付加的な利点があり, 多数のビデオフレームを重いアーティファクトで扱える可能性がある。
提案手法の有効性は, 生物学的に動機づけた検証戦略を用いて実証し, 複数の最先端細胞追跡法と比較した。
The accurate tracking of live cells using video microscopy recordings remains a challenging task for popular state-of-the-art image processing based object tracking methods. In recent years, several existing and new applications have attempted to integrate deep-learning based frameworks for this task, but most of them still heavily rely on consecutive frame based tracking embedded in their architecture or other premises that hinder generalized learning. To address this issue, we aimed to develop a new deep-learning based tracking method that relies solely on the assumption that cells can be tracked based on their spatio-temporal neighborhood, without restricting it to consecutive frames. The proposed method has the additional benefit that the motion patterns of the cells can be learned completely by the predictor without any prior assumptions, and it has the potential to handle a large number of video frames with heavy artifacts. The efficacy of the proposed method is demonstrated through biologically motivated validation strategies and compared against multiple state-of-the-art cell tracking methods. | 翻訳日:2024-09-04 22:44:54 公開日:2024-09-03 |
# PokerKit: 細粒度多変数ポーカーゲームシミュレーションのための総合Pythonライブラリ
PokerKit: A Comprehensive Python Library for Fine-Grained Multi-Variant Poker Game Simulations ( http://arxiv.org/abs/2308.07327v6 ) ライセンス: Link先を確認 | Juho Kim, | (参考訳) PokerKitは、既存のポーカーゲームシミュレーションと手評価ツールの制限を克服するために設計された、オープンソースのPythonライブラリである。
これとは対照的に、PokerKitは広範なポーカーバリエーションをサポートし、ユーザがカスタムゲームを定義するための柔軟なアーキテクチャを提供することにより、このスコープを大幅に拡張する。
本稿では,PokerKitの設計と実装について詳述する。
PokerKitの柔軟性により、ポーカーAI開発、ツール作成、オンラインポーカーカジノ実装など、さまざまな分野のアプリケーションが可能になる。
PokerKitの信頼性は静的型チェック、広範なドクテスト、ユニットテストを通じて確立され、99%のコードカバレッジを達成した。
PokerKitの導入は、コンピュータポーカーの分野への重要な貢献であり、様々なポーカーゲームのための将来の研究と高度なAI開発を促進する。
ソースコードはhttps://github.com/uoftcprg/pokerkitで入手できる。
PokerKit is an open-source Python library designed to overcome the restrictions of existing poker game simulation and hand evaluation tools, which typically support only a handful of poker variants and lack flexibility in game state control. In contrast, PokerKit significantly expands this scope by supporting an extensive array of poker variants and it provides a flexible architecture for users to define their custom games. This paper details the design and implementation of PokerKit, including its intuitive programmatic API, multi-variant game support, and a unified hand evaluation suite across different hand types. The flexibility of PokerKit allows for applications in diverse areas, such as poker AI development, tool creation, and online poker casino implementation. PokerKit's reliability has been established through static type checking, extensive doctests, and unit tests, achieving 99% code coverage. The introduction of PokerKit represents a significant contribution to the field of computer poker, fostering future research and advanced AI development for a wide variety of poker games. The source code is available at https://github.com/uoftcprg/pokerkit | 翻訳日:2024-09-04 22:35:08 公開日:2024-09-03 |
# ニューラルネットワークによる量子励起状態の高精度計算
Accurate Computation of Quantum Excited States with Neural Networks ( http://arxiv.org/abs/2308.16848v3 ) ライセンス: Link先を確認 | David Pfau, Simon Axelrod, Halvard Sutterud, Ingrid von Glehn, James S. Spencer, | (参考訳) 基底状態の推定の自然な一般化である量子系の最低励起状態を推定するための変分モンテカルロアルゴリズムを提案する。
この方法は自由パラメータを持たず、異なる状態の明示的な直交化を必要としない。代わりに、与えられたシステムの励起状態を見つけるという問題を拡張されたシステムの基底状態を見つける問題に変換する。
任意の観測可能量の期待値は、遷移双極子モーメントのような異なる状態間の非対角予測を含む計算可能である。
本手法は完全に汎用的ではあるが, ニューラルネットワークを多電子系における変分Ans\atzeとして利用する最近の研究と組み合わせて, この手法をFermiNetとPsiformer Ans\atzeと組み合わせることで, 様々な分子の垂直励起エネルギーと振動子強度を正確に回復できることが示されている。
本手法は, ベンゼンスケール分子上での2重励起を含む, 正確な垂直励起エネルギーを達成するための, 初めての深層学習手法である。
ここでの化学の例の他に、原子、核、凝縮物質物理学への応用には、この技術が大きな関心を持つだろう。
We present a variational Monte Carlo algorithm for estimating the lowest excited states of a quantum system which is a natural generalization of the estimation of ground states. The method has no free parameters and requires no explicit orthogonalization of the different states, instead transforming the problem of finding excited states of a given system into that of finding the ground state of an expanded system. Expected values of arbitrary observables can be calculated, including off-diagonal expectations between different states such as the transition dipole moment. Although the method is entirely general, it works particularly well in conjunction with recent work on using neural networks as variational Ans\"atze for many-electron systems, and we show that by combining this method with the FermiNet and Psiformer Ans\"atze we can accurately recover vertical excitation energies and oscillator strengths on a range of molecules. Our method is the first deep learning approach to achieve accurate vertical excitation energies, including challenging double excitations, on benzene-scale molecules. Beyond the chemistry examples here, we expect this technique will be of great interest for applications to atomic, nuclear and condensed matter physics. | 翻訳日:2024-09-04 22:35:08 公開日:2024-09-03 |
# RLAIF vs. RLHF:AIフィードバックによる人間のフィードバックからの強化学習のスケーリング
RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback ( http://arxiv.org/abs/2309.00267v3 ) ライセンス: Link先を確認 | Harrison Lee, Samrat Phatale, Hassan Mansoor, Thomas Mesnard, Johan Ferret, Kellie Lu, Colton Bishop, Ethan Hall, Victor Carbune, Abhinav Rastogi, Sushant Prakash, | (参考訳) 人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好を結びつけるのに有効であることが証明されているが、高品質な嗜好ラベルの収集は高価である。
RL from AI Feedback (RLAIF)はBai et alで紹介され、既製のLLMによって生成される好みに基づいて報酬モデル(RM)をトレーニングする有望な代替手段を提供する。
要約,補助対話生成,無害対話生成のタスクにおいて,RLAIFがRLHFに匹敵する性能を発揮することを示す。
さらに、AIラベルラがポリシーと同じサイズである場合や、初期ポリシーと全く同じチェックポイントであっても、RLAIFが教師付き微調整ベースラインを上回り得ることを示すことで、"自己改善"への一歩を踏み出した。
最後に,RL中の既設LLMから直接報酬を得ることにより,RMトレーニングを回避し,標準RLAIFよりも優れた性能を実現する手法であるdirect-RLAIF(d-RLAIF)を紹介する。
この結果から, RLHF のスケーラビリティ限界に対する潜在的な解決策として, 人間のフィードバックを活用すれば, RLAIF による性能向上が期待できる可能性が示唆された。
Reinforcement learning from human feedback (RLHF) has proven effective in aligning large language models (LLMs) with human preferences, but gathering high-quality preference labels is expensive. RL from AI Feedback (RLAIF), introduced in Bai et al., offers a promising alternative that trains the reward model (RM) on preferences generated by an off-the-shelf LLM. Across the tasks of summarization, helpful dialogue generation, and harmless dialogue generation, we show that RLAIF achieves comparable performance to RLHF. Furthermore, we take a step towards "self-improvement" by demonstrating that RLAIF can outperform a supervised fine-tuned baseline even when the AI labeler is the same size as the policy, or even the exact same checkpoint as the initial policy. Finally, we introduce direct-RLAIF (d-RLAIF) - a technique that circumvents RM training by obtaining rewards directly from an off-the-shelf LLM during RL, which achieves superior performance to canonical RLAIF. Our results suggest that RLAIF can achieve performance on-par with using human feedback, offering a potential solution to the scalability limitations of RLHF. | 翻訳日:2024-09-04 22:35:08 公開日:2024-09-03 |
# 薬物発見のためのタンパク質-リガンド結合親和性予測を改善するハイブリッド量子古典核融合ニューラルネットワーク
A hybrid quantum-classical fusion neural network to improve protein-ligand binding affinity predictions for drug discovery ( http://arxiv.org/abs/2309.03919v3 ) ライセンス: Link先を確認 | L. Domingo, M. Chehimi, S. Banerjee, S. He Yuxun, S. Konakanchi, L. Ogunfowora, S. Roy, S. Selvaras, M. Djukic, C. Johnson, | (参考訳) 薬物発見の分野は、予測される薬物分子と標的タンパク質との結合親和性の正確な予測、特にそのようなタンパク質が疾患の進行に直接影響を及ぼす場合である。
しかし、結合親和性の推定には、かなりの経済的および計算資源が必要である。
最先端の方法論は古典的機械学習(ML)技術を採用しているが、新しいハイブリッド量子機械学習(QML)モデルは、その固有の並列性とデータ次元の指数的な増加を管理する能力のために、パフォーマンスの向上を約束している。
これらの進歩にもかかわらず、既存のモデルは収束安定性と予測精度に関連する問題に遭遇する。
本稿では,薬物発見における親和性予測に適したハイブリッド量子古典的深層学習モデルを提案する。
具体的には、最適化量子アーキテクチャにおいて、3次元および空間グラフ畳み込みニューラルネットワークを相乗的に統合する。
シミュレーションの結果、既存の古典的モデルと比較して予測精度が6%向上し、従来の古典的手法に比べてはるかに安定した収束性能を示した。
The field of drug discovery hinges on the accurate prediction of binding affinity between prospective drug molecules and target proteins, especially when such proteins directly influence disease progression. However, estimating binding affinity demands significant financial and computational resources. While state-of-the-art methodologies employ classical machine learning (ML) techniques, emerging hybrid quantum machine learning (QML) models have shown promise for enhanced performance, owing to their inherent parallelism and capacity to manage exponential increases in data dimensionality. Despite these advances, existing models encounter issues related to convergence stability and prediction accuracy. This paper introduces a novel hybrid quantum-classical deep learning model tailored for binding affinity prediction in drug discovery. Specifically, the proposed model synergistically integrates 3D and spatial graph convolutional neural networks within an optimized quantum architecture. Simulation results demonstrate a 6% improvement in prediction accuracy relative to existing classical models, as well as a significantly more stable convergence performance compared to previous classical approaches. | 翻訳日:2024-09-04 22:35:08 公開日:2024-09-03 |
# ラジオグラフィーにおける表現の強化-レポート基礎モデル:マスク付きコントラスト学習を用いた粒界配向アルゴリズム
Enhancing Representation in Radiography-Reports Foundation Model: A Granular Alignment Algorithm Using Masked Contrastive Learning ( http://arxiv.org/abs/2309.05904v3 ) ライセンス: Link先を確認 | Weijian Huang, Cheng Li, Hong-Yu Zhou, Hao Yang, Jiarun Liu, Yong Liang, Hairong Zheng, Shaoting Zhang, Shanshan Wang, | (参考訳) 近年,医療分野において,マルチモーダル視覚言語基盤モデルが注目されている。
これらのモデルは大きな機会を提供するが、コンピュータ支援診断におけるきめ細かい知識の理解の必要性や、実際の臨床応用におけるタスク固有のラベル付きデータの利用能力など、依然として重要な課題に直面している。
本研究では,これらの課題に対処するマスク付きコントラスト型胸部X線基礎モデルMaCoを提案する。
MaCoは、さまざまな医療画像タスクに対して、きめ細かい画像理解とゼロショット学習を同時に達成するために、マスク付きコントラスト学習を探求している。
マスクされた胸部X線画像パッチとそれに対応するレポートとの相関を調整するための相関重み付け機構を設計し、モデルの表現学習能力を向上する。
MaCoの性能を評価するため、6つの有名なオープンソースX線データセットを用いて広範囲な実験を行った。
実験の結果, 分類, セグメンテーション, 検出, 句接地といったタスクにまたがる10以上の最先端手法がMaCoより優れていることが示された。
これらの知見は、幅広い医用画像解析タスクを前進させるMaCoの有意義な可能性を浮き彫りにした。
Recently, multi-modal vision-language foundation models have gained significant attention in the medical field. While these models offer great opportunities, they still face crucial challenges, such as the requirement for fine-grained knowledge understanding in computer-aided diagnosis and the capability of utilizing very limited or even no task-specific labeled data in real-world clinical applications. In this study, we present MaCo, a masked contrastive chest X-ray foundation model that tackles these challenges. MaCo explores masked contrastive learning to simultaneously achieve fine-grained image understanding and zero-shot learning for a variety of medical imaging tasks. It designs a correlation weighting mechanism to adjust the correlation between masked chest X-ray image patches and their corresponding reports, thereby enhancing the model's representation learning capabilities. To evaluate the performance of MaCo, we conducted extensive experiments using 6 well-known open-source X-ray datasets. The experimental results demonstrate the superiority of MaCo over 10 state-of-the-art approaches across tasks such as classification, segmentation, detection, and phrase grounding. These findings highlight the significant potential of MaCo in advancing a wide range of medical image analysis tasks. | 翻訳日:2024-09-04 22:35:08 公開日:2024-09-03 |
# Prompted Chain-of-Contactsによる人間とシーンの統一インタラクション
Unified Human-Scene Interaction via Prompted Chain-of-Contacts ( http://arxiv.org/abs/2309.07918v4 ) ライセンス: Link先を確認 | Zeqi Xiao, Tai Wang, Jingbo Wang, Jinkun Cao, Wenwei Zhang, Bo Dai, Dahua Lin, Jiangmiao Pang, | (参考訳) HSI(Human-Scene Interaction)は、AIや仮想現実といった分野において重要なコンポーネントである。
動作品質と物理的妥当性の進歩にもかかわらず、多目的インタラクション制御とユーザフレンドリなインターフェースの開発という2つの重要な要素は、HSIの実用化前にさらなる探索が必要である。
本稿では,言語コマンドによる多様なインタラクションの統一制御を支援する統一型HSIフレームワークUniHSIを提案する。
この枠組みは、接触の連鎖(CoC: Chain of Contacts)としての相互作用の定義に基づいて構築されている。
この定義に基づいて、UniHSIはLarge Language Model (LLM) Plannerを構成し、言語プロンプトをCoCの形式でタスクプランに変換する。
トレーニングと評価を容易にするために,多様なシナリオに基づいてLLMが生成する数千のタスク計画を含むScenePlanというデータセットを新たに収集した。
総合的な実験により,実写シーンに対する多目的タスク実行と一般化性において,我々のフレームワークの有効性が実証された。
プロジェクトページはhttps://github.com/OpenRobotLab/UniHSI にある。
Human-Scene Interaction (HSI) is a vital component of fields like embodied AI and virtual reality. Despite advancements in motion quality and physical plausibility, two pivotal factors, versatile interaction control and the development of a user-friendly interface, require further exploration before the practical application of HSI. This paper presents a unified HSI framework, UniHSI, which supports unified control of diverse interactions through language commands. This framework is built upon the definition of interaction as Chain of Contacts (CoC): steps of human joint-object part pairs, which is inspired by the strong correlation between interaction types and human-object contact regions. Based on the definition, UniHSI constitutes a Large Language Model (LLM) Planner to translate language prompts into task plans in the form of CoC, and a Unified Controller that turns CoC into uniform task execution. To facilitate training and evaluation, we collect a new dataset named ScenePlan that encompasses thousands of task plans generated by LLMs based on diverse scenarios. Comprehensive experiments demonstrate the effectiveness of our framework in versatile task execution and generalizability to real scanned scenes. The project page is at https://github.com/OpenRobotLab/UniHSI . | 翻訳日:2024-09-04 22:35:08 公開日:2024-09-03 |
# OceanGPT: 海洋科学タスクのための大規模言語モデル
OceanGPT: A Large Language Model for Ocean Science Tasks ( http://arxiv.org/abs/2310.02031v8 ) ライセンス: Link先を確認 | Zhen Bi, Ningyu Zhang, Yida Xue, Yixin Ou, Daxiong Ji, Guozhou Zheng, Huajun Chen, | (参考訳) 生命と生物多様性の貯水池である海洋科学は、地球の表面の70%以上を海洋がカバーしていることを考えると、非常に重要である。
近年,Large Language Models (LLM) の進歩が科学のパラダイムを変えつつある。
他の領域での成功にもかかわらず、現在のLLMは海洋学者のようなドメインの専門家のニーズに応えられず、海洋科学のためのLLMのポテンシャルは過小評価されている。
本質的な理由は、海洋データの巨大で複雑な性質と、高い粒度と知識の豊かさの必要性である。
これらの問題を緩和するために、様々な海洋科学タスクの専門家であるオーシャンGPT(オーシャンGPT)を紹介します。
また,マルチエージェント協調に基づく命令を生成する,大量の海洋ドメイン命令データを自動的に取得する新しいフレームワークであるOceanGPTを提案する。
さらに,海洋域におけるLLMの能力を評価するため,最初の海洋学ベンチマークであるOceanBenchを構築した。
総合的な実験ではあるが、OceanGPTは海洋科学のタスクの高度な知識知識を示すだけでなく、海洋技術における予備的なインテリジェンス能力も得る。
Ocean science, which delves into the oceans that are reservoirs of life and biodiversity, is of great significance given that oceans cover over 70% of our planet's surface. Recently, advances in Large Language Models (LLMs) have transformed the paradigm in science. Despite the success in other domains, current LLMs often fall short in catering to the needs of domain experts like oceanographers, and the potential of LLMs for ocean science is under-explored. The intrinsic reasons are the immense and intricate nature of ocean data as well as the necessity for higher granularity and richness in knowledge. To alleviate these issues, we introduce OceanGPT, the first-ever large language model in the ocean domain, which is expert in various ocean science tasks. We also propose OceanGPT, a novel framework to automatically obtain a large volume of ocean domain instruction data, which generates instructions based on multi-agent collaboration. Additionally, we construct the first oceanography benchmark, OceanBench, to evaluate the capabilities of LLMs in the ocean domain. Though comprehensive experiments, OceanGPT not only shows a higher level of knowledge expertise for oceans science tasks but also gains preliminary embodied intelligence capabilities in ocean technology. | 翻訳日:2024-09-04 22:24:42 公開日:2024-09-03 |
# 解釈可能なモーションキャプションのためのガイドアテンション
Guided Attention for Interpretable Motion Captioning ( http://arxiv.org/abs/2310.07324v2 ) ライセンス: Link先を確認 | Karim Radouane, Julien Lagarde, Sylvie Ranwez, Andon Tchechmedjiev, | (参考訳) 近年,テキスト・コンディショニングによるヒューマン・モーション・ジェネレーションの研究が盛んに行われている。
しかし、逆方向の進行、つまりモーションキャプションは、同等の進歩は見られない。
本稿では,時空間的・適応的な注意機構を通じて解釈可能性を強調することによって,テキスト生成品質を向上させる新しいアーキテクチャ設計を提案する。
そこで本研究では,人為的な推論を促進するために,トレーニング中の注意を誘導し,時間とともに関連する骨格領域を強調し,動きに関連した単語を区別する手法を提案する。
我々は,関係するヒストグラムと密度分布を用いて,モデルの解釈可能性について議論し,定量化する。
さらに,動作の局所化,身体部分の識別,動作関連単語の識別など,人間の動作に関する詳細な情報を得るために,解釈可能性を活用する。
最後に、他のタスクへのアプローチの転送可能性について論じる。
本実験は,高パラメータ数非解釈型システムと比較して,注意誘導がキャプションの解釈に寄与し,性能が向上することを示した。
コードは、https://github.com/rd20karim/M2T-Interpretable.comで入手できる。
Diverse and extensive work has recently been conducted on text-conditioned human motion generation. However, progress in the reverse direction, motion captioning, has seen less comparable advancement. In this paper, we introduce a novel architecture design that enhances text generation quality by emphasizing interpretability through spatio-temporal and adaptive attention mechanisms. To encourage human-like reasoning, we propose methods for guiding attention during training, emphasizing relevant skeleton areas over time and distinguishing motion-related words. We discuss and quantify our model's interpretability using relevant histograms and density distributions. Furthermore, we leverage interpretability to derive fine-grained information about human motion, including action localization, body part identification, and the distinction of motion-related words. Finally, we discuss the transferability of our approaches to other tasks. Our experiments demonstrate that attention guidance leads to interpretable captioning while enhancing performance compared to higher parameter-count, non-interpretable state-of-the-art systems. The code is available at: https://github.com/rd20karim/M2T-Interpretable. | 翻訳日:2024-09-04 22:24:42 公開日:2024-09-03 |
# Sentinel: 分散型フェデレーション学習をセキュアにするためのアグリゲーション機能
Sentinel: An Aggregation Function to Secure Decentralized Federated Learning ( http://arxiv.org/abs/2310.08097v3 ) ライセンス: Link先を確認 | Chao Feng, Alberto Huertas Celdran, Janosch Baltensperger, Enrique Tomas Martinez Beltran, Gerome Bovet, Burkhard Stiller, | (参考訳) Decentralized Federated Learning (DFL)は、協調モデルをトレーニングするための革新的なパラダイムとして登場し、単一障害点に対処する。
しかし、FLとDFLの安全性と信頼性は、毒性攻撃によって損なわれ、その性能に悪影響を及ぼす。
既存の防御機構は集中型FLのために設計されており、DFLの特異性を十分に活用していない。
そこで本研究では,DFLの毒殺対策戦略であるSentinelを紹介した。
Sentinelはローカルデータのアクセシビリティを活用し、類似性のフィルタリング、ブートストラップ検証、悪意のあるモデル更新に対する保護のための正規化からなる3段階のアグリゲーションプロトコルを定義する。
Sentinelは多様なデータセットとデータ分散で評価されている。
毒の種類や脅威レベルも確認されている。
その結果、IID(Independent and Identically Distributed)設定に従えば、未ターゲットおよびターゲットの毒殺攻撃に対する最先端のパフォーマンスが向上する。
さらに、非IID構成下では、Sentinelと他の最先端のロバストアグリゲーション手法の両方でパフォーマンスが劣化するかを解析する。
Decentralized Federated Learning (DFL) emerges as an innovative paradigm to train collaborative models, addressing the single point of failure limitation. However, the security and trustworthiness of FL and DFL are compromised by poisoning attacks, negatively impacting its performance. Existing defense mechanisms have been designed for centralized FL and they do not adequately exploit the particularities of DFL. Thus, this work introduces Sentinel, a defense strategy to counteract poisoning attacks in DFL. Sentinel leverages the accessibility of local data and defines a three-step aggregation protocol consisting of similarity filtering, bootstrap validation, and normalization to safeguard against malicious model updates. Sentinel has been evaluated with diverse datasets and data distributions. Besides, various poisoning attack types and threat levels have been verified. The results improve the state-of-the-art performance against both untargeted and targeted poisoning attacks when data follows an IID (Independent and Identically Distributed) configuration. Besides, under non-IID configuration, it is analyzed how performance degrades both for Sentinel and other state-of-the-art robust aggregation methods. | 翻訳日:2024-09-04 22:24:42 公開日:2024-09-03 |
# 量子エラー除去のための純度支援ゼロノイズ外挿法
Purity-Assisted Zero-Noise Extrapolation for Quantum Error Mitigation ( http://arxiv.org/abs/2310.10037v4 ) ライセンス: Link先を確認 | Tian-Ren Jin, Yun-Hao Shi, Zheng-An Wang, Tian-Ming Li, Kai Xu, Heng Fan, | (参考訳) 量子エラー軽減は、量子システムのエラーを減らし、精度を向上させることを目的としている。
ゼロノイズ外挿法(ゼロノイズ外挿法、ZNE)は、ノイズを増幅し、目標予測をノイズフリー点に外挿する手法である。
しかし、ZNEはエラーモデルに基づくエラー率に関する仮定に依存している。
本研究では,純度支援型ゼロノイズ外挿法(pZNE)を用いて誤り率仮定の限界に対処し,外挿プロセスを強化する。
pZNEは、パウリツイリング技術を用いて実装されたパウリ対角誤差モデルに基づいている。
この手法は、通常のZNEのバイアスを大幅に低減するわけではないが、通常のZNEが制限に直面する可能性のある幅広い誤差率にまでその効果を拡大する。
さらに,pZNE法の実用性は,オンライン量子計算プラットフォームであるQuafuの数値シミュレーションと実験により検証される。
通常のZNE法や仮想蒸留法と比較すると、外挿法におけるバイアスは誤差率で増加し、高い誤差率で発散する可能性がある。
pZNEのバイアスは通常のZNEよりもわずかに低いが、エラーレート閾値は通常のZNEよりも小さい。
さらに、全密度行列情報に対して、pZNE法は通常のZNEよりも効率的である。
Quantum error mitigation aims to reduce errors in quantum systems and improve accuracy. Zero-noise extrapolation (ZNE) is a commonly used method, where noise is amplified, and the target expectation is extrapolated to a noise-free point. However, ZNE relies on assumptions about error rates based on the error model. In this study, a purity-assisted zero-noise extrapolation (pZNE) method is utilized to address limitations in error rate assumptions and enhance the extrapolation process. The pZNE is based on the Pauli diagonal error model implemented using the Pauli twirling technique. Although this method does not significantly reduce the bias of routine ZNE, it extends its effectiveness to a wider range of error rates where routine ZNE may face limitations. In addition, the practicality of the pZNE method is verified through numerical simulations and experiments on the online quantum computation platform, Quafu. Comparisons with routine ZNE and virtual distillation methods show that biases in extrapolation methods increase with error rates and may become divergent at high error rates. The bias of pZNE is slightly lower than routine ZNE, while its error rate threshold surpasses that of routine ZNE. Furthermore, for full density matrix information, the pZNE method is more efficient than the routine ZNE. | 翻訳日:2024-09-04 22:24:42 公開日:2024-09-03 |
# 量子決定論の新しい基礎
A new foundation of quantum decision theory ( http://arxiv.org/abs/2310.12762v4 ) ライセンス: Link先を確認 | Inge S. Helland, | (参考訳) ここでは量子決定論が紹介され、この理論の新たな基礎が提案されている。
これはまず、量子論におけるヒルベルト空間形式論の著者の一般的な議論に基づいており、次にボルン則の議論、すなわち量子確率を計算するための基礎に基づいている。
量子論の基礎の背後にある基本的な概念は、理論変数はアクセス不能で到達不能な変数に分けられる。
これは、決定変数に特化しています。
各可アクセス変数は、特定の到達不能変数の関数と見なせると仮定される。
別の仮定は、与えられた状況に最大アクセス可能な2つの理論変数が存在するというものである。
ボルンルールの背後にある2つの基本的な仮定は
1) 可能性原理
2) 被疑者は, 仮説的に完全に合理的な存在によってモデル化できる動機を有する。
その理論は医学的な例によって説明されている。
最後に、意思決定プロセスに関する広範な議論がなされる。
Quantum decision theory is introduced here, and a new basis for this theory is proposed. It is first based upon the author's general arguments for the Hilbert space formalism in quantum theory, and next on arguments for the Born rule, that is, the basis for calculating quantum probabilities. A basic notion behind the quantum theory foundation is that of theoretical variables, that are divided into accessible and inaccessible ones. This is here specialized to decision variables. It is assumed that each accessible variable can be seen as a function of a specific inaccessible variable. Another assumption is that there exist two maximal accessible theoretical variables in the given situation. Two basic assumptions behind the Born rule are 1) the likelihood principle, 2) the actor in question has motivations that can be modeled by a hypothetical perfectly rational higher being. The theory is illustrated by a medical example. Finally, a broad discussion of decision processes is given. | 翻訳日:2024-09-04 22:24:42 公開日:2024-09-03 |
# 孤立系の平衡における剛性境界を用いた弱熱化と強熱化のスムースクロスオーバー
Smooth Crossover Between Weak and Strong Thermalization using Rigorous Bounds on Equilibration of Isolated Systems ( http://arxiv.org/abs/2310.13392v3 ) ライセンス: Link先を確認 | Luis Fernando dos Prazeres, Thiago R. de Oliveira, | (参考訳) 通常は、非可積分な孤立量子系が熱化すると予想され観測される。
しかし、いくつかの非可積分スピン鎖モデルでは、しばらく持続する振動を持つ初期状態が発見され、この現象は弱い熱化と命名された。
その後、このような振動は最終的に崩壊し、弱い熱化は時間スケールであり、変動の大きさではないことが示唆された。
それにもかかわらず、変動の大きさの分析はより定性的であった。
ここでは、厳密な対角化を用いて、典型的な揺らぎの大きさが、平衡を起こすのに十分な時間経過した後、システムサイズとどのようにスケールするかを分析する。
そのため、孤立量子系の平衡に厳密な数学的上界を用いる。
弱熱化は初期状態の小さな有効次元に起因すると考えられる。
さらに, この2つの状態間の急激な遷移を示さない, 弱熱化と強熱化の両面において, ゆらぎはシステムサイズに比例して指数関数的に減衰することを示した。
It is usually expected and observed that non-integrable isolated quantum systems thermalize. However, for some non-integrable spin chain models, in a numerical study, initial states with oscillations that persisted for some time were found and the phenomenon was named weak thermalization. Later, it was argued that such oscillations will eventually decay suggesting that weak thermalization was about time scales and not the size of the fluctuations. Nevertheless, the analyses of the size of the fluctuations were more qualitative. Here, using exact diagonalization we analyze how the size of the typical fluctuation, after long enough time for equilibration to happen, scales with the system size. For that, we use rigorous mathematical upper bounds on the equilibration of isolated quantum systems. We show that weak thermalization can be understood to be due to the small effective dimension of the initial state. Furthermore, we show that the fluctuations decay exponentially with the system size for both weak and strong thermalization indicating no sharp transitions between these two regimes. | 翻訳日:2024-09-04 22:14:48 公開日:2024-09-03 |
# ランダム投影による効率的な不均一グラフ学習
Efficient Heterogeneous Graph Learning via Random Projection ( http://arxiv.org/abs/2310.14481v2 ) ライセンス: Link先を確認 | Jun Hu, Bryan Hooi, Bingsheng He, | (参考訳) 不均一グラフニューラルネットワーク(HGNN)は、異種グラフを深層学習するための強力なツールである。
典型的なHGNNは、トレーニング中に繰り返しメッセージパッシングを必要とし、大規模な実世界のグラフの効率を制限している。
最近のプリ計算ベースのHGNNは、一時間メッセージパッシングを使用して、不均一なグラフを正規形テンソルに変換することにより、効率的なミニバッチトレーニングを実現する。
既存の事前計算ベースのHGNNは、主に2つのスタイルに分類される。
本稿では,Random Projection Heterogeneous Graph Neural Network (RpHGNN) というハイブリッド事前計算型HGNNを提案する。
RpHGNNの主なフレームワークはプロパゲートの更新イテレーションで構成されており、Random Projection Squashing ステップを導入し、複雑性が線形に増加することを保証する。
低情報損失を実現するために,よりきめ細かな方法で隣人からの情報を収集することを目的としたEven-odd Propagation Schemeを用いたRelation-wise Neighbor Collectionコンポーネントを導入する。
実験結果から,本手法は7つの小規模および大規模ベンチマークデータセットに対して最先端の結果が得られる一方で,最も有効なベースラインに比べて230%高速であることがわかった。
驚いたことに、我々のアプローチは前処理ベースのベースラインを超えただけでなく、エンドツーエンドのメソッドよりも優れています。
Heterogeneous Graph Neural Networks (HGNNs) are powerful tools for deep learning on heterogeneous graphs. Typical HGNNs require repetitive message passing during training, limiting efficiency for large-scale real-world graphs. Recent pre-computation-based HGNNs use one-time message passing to transform a heterogeneous graph into regular-shaped tensors, enabling efficient mini-batch training. Existing pre-computation-based HGNNs can be mainly categorized into two styles, which differ in how much information loss is allowed and efficiency. We propose a hybrid pre-computation-based HGNN, named Random Projection Heterogeneous Graph Neural Network (RpHGNN), which combines the benefits of one style's efficiency with the low information loss of the other style. To achieve efficiency, the main framework of RpHGNN consists of propagate-then-update iterations, where we introduce a Random Projection Squashing step to ensure that complexity increases only linearly. To achieve low information loss, we introduce a Relation-wise Neighbor Collection component with an Even-odd Propagation Scheme, which aims to collect information from neighbors in a finer-grained way. Experimental results indicate that our approach achieves state-of-the-art results on seven small and large benchmark datasets while also being 230% faster compared to the most effective baseline. Surprisingly, our approach not only surpasses pre-processing-based baselines but also outperforms end-to-end methods. | 翻訳日:2024-09-04 22:14:48 公開日:2024-09-03 |
# スキニーツリー学習のためのエンドツーエンド特徴選択手法
End-to-end Feature Selection Approach for Learning Skinny Trees ( http://arxiv.org/abs/2310.18542v2 ) ライセンス: Link先を確認 | Shibal Ibrahim, Kayhan Behdin, Rahul Mazumder, | (参考訳) 本稿では,木組における特徴選択のための新しい最適化手法を提案する。
人気のツリーアンサンブルツールキット(例:Gradient Boosted Trees)やランダムフォレスト(例:ランダムフォレスト)は、特徴重要度スコアに基づいた機能選択をサポートするが、非常に人気があるが、欠点があることが知られている。
木アンサンブルにおける特徴選択のためのエンドツーエンドツールキットであるスキニーツリーを提案し,選択した特徴数を制御しながら木アンサンブルを訓練する。
我々の最適化に基づくアプローチは、微分可能木の集合を学習し、同時にグループ化された$\ell_0$-regularizerを用いて特徴選択を行う。
最適化に一階法を用い,提案手法の収束保証を行う。
より表現豊かでスペーサーな木のアンサンブルに繋がる高密度からスパースな正規化スケジューリング方式を用いる。
15の合成および実世界のデータセットで、Skinny Treesは$1.5\!
タイムズ!
~620〜\!
タイムズ!
パフォーマンスを損なうことなく、高密度木よりも高速な推測が10ドル(約10万円)の圧縮レートで可能になる。
スキニーツリーは25 %の機能予算での AUC のパフォーマンスにおいて、多くの既存のツールキットよりも優れた機能選択をもたらし、スキニーツリーは LightGBM を10.2 %(最大37.7 %)、ランダムフォレストを3 %(最大12.5 %)上回っている。
We propose a new optimization-based approach for feature selection in tree ensembles, an important problem in statistics and machine learning. Popular tree ensemble toolkits e.g., Gradient Boosted Trees and Random Forests support feature selection post-training based on feature importance scores, while very popular, they are known to have drawbacks. We propose Skinny Trees: an end-to-end toolkit for feature selection in tree ensembles where we train a tree ensemble while controlling the number of selected features. Our optimization-based approach learns an ensemble of differentiable trees, and simultaneously performs feature selection using a grouped $\ell_0$-regularizer. We use first-order methods for optimization and present convergence guarantees for our approach. We use a dense-to-sparse regularization scheduling scheme that can lead to more expressive and sparser tree ensembles. On 15 synthetic and real-world datasets, Skinny Trees can achieve $1.5\!\times\! -~620~\!\times\!$ feature compression rates, leading up to $10\times$ faster inference over dense trees, without any loss in performance. Skinny Trees lead to superior feature selection than many existing toolkits e.g., in terms of AUC performance for 25\% feature budget, Skinny Trees outperforms LightGBM by $10.2\%$ (up to $37.7\%$), and Random Forests by $3\%$ (up to $12.5\%$). | 翻訳日:2024-09-04 22:14:48 公開日:2024-09-03 |
# SWAP制御操作による次元非依存弱値推定
Dimension-independent weak value estimation via controlled SWAP operations ( http://arxiv.org/abs/2311.03941v2 ) ライセンス: Link先を確認 | Giulio Chiribella, Kyrylo Simonov, Xuanqiang Zhao, | (参考訳) 量子オブザーバブルの弱値は、量子現象を研究する強力なツールである。
実験室の弱い値を測定する方法は弱い相互作用とポストセレクションを必要とするが、他の方法は決定論的であるが、観測可能な全ての可観測物に対して最悪の場合、測定されたシステムの寸法と線形に成長する多くの実験に関する統計を必要とする。
ここでは、任意の可観測物の弱い値を推定するための決定論的次元非依存スキームを提案する。
このスキームは、制御されたSWAP操作に基づいており、弱い値の数学的表現における状態と観測変数を、それぞれ実験装置における準備装置と測定装置に関連付ける。
この特徴により、2つの同一の量子系の状態の単一時点における状態と、単一の量子系の状態の2つの時点における状態の関係に関する洞察を提供する。
具体的には、2時間状態に対する代替表現を提供し、制御されたSWAPスキームを通してアクセス可能な2時間状態と正の部分変換を持つ二部量子状態とのリンクを確立する。
Weak values of quantum observables are a powerful tool for investigating quantum phenomena. Some methods for measuring weak values in the laboratory require weak interactions and postselection, while others are deterministic, but require statistics over a number of experiments that grows linearly with the dimension of the measured system in the worst case over all possible observables. Here we propose a deterministic dimension-independent scheme for estimating weak values of arbitrary observables. The scheme is based on controlled SWAP operations, and associates states and observables in the mathematical expression of the weak value to preparations devices and measurements devices in the experimental setup, respectively. Thanks to this feature, it provides insights into the relation between states of two identical quantum systems at a single moment of time and states of a single quantum system at two moments of time, also known as two-time states. Specifically, our scheme provides an alternative expression for two-time states, and establishes a link between two-time states accessible through the controlled-SWAP scheme and bipartite quantum states with positive partial transpose. | 翻訳日:2024-09-04 22:14:48 公開日:2024-09-03 |
# 画像ベースのバーチャルトライオン:サーベイ
Image-Based Virtual Try-On: A Survey ( http://arxiv.org/abs/2311.04811v4 ) ライセンス: Link先を確認 | Dan Song, Xuanpu Zhang, Juan Zhou, Weizhi Nie, Ruofeng Tong, Mohan Kankanhalli, An-An Liu, | (参考訳) 画像ベースの仮想試着は、自然に着飾った人物画像を衣服画像で合成することを目的としており、これはオンラインショッピングに革命をもたらし、画像生成に関連トピックを刺激し、研究の意義と商業的可能性の両方を示す。
しかし、現在の研究の進展と商業的応用の間にはギャップがあり、開発を加速するためにこの分野の総合的な概要が欠如している。本調査では、パイプラインアーキテクチャ、人物表現、試着表示、衣料のワープ、試着ステージといった重要なモジュールの側面における最先端技術と方法論を包括的に分析する。
また、CLIPを用いて試行結果のセマンティックアライメントを評価し、同じデータセット上で一様に実装された評価指標を用いた代表的手法の評価を行い、また、現在のオープンソース手法の定量的かつ質的な評価に加えて、未解決の問題が強調され、今後の研究方向が重要トレンドの特定とさらなる探索を促すことが期待されている。
均一に実装された評価メトリクス、データセット、収集されたメソッドはhttps://github.com/little-misfit/Survey-Of-Virtual-Try-Onで公開される。
Image-based virtual try-on aims to synthesize a naturally dressed person image with a clothing image, which revolutionizes online shopping and inspires related topics within image generation, showing both research significance and commercial potential. However, there is a gap between current research progress and commercial applications and an absence of comprehensive overview of this field to accelerate the development.In this survey, we provide a comprehensive analysis of the state-of-the-art techniques and methodologies in aspects of pipeline architecture, person representation and key modules such as try-on indication, clothing warping and try-on stage. We additionally apply CLIP to assess the semantic alignment of try-on results, and evaluate representative methods with uniformly implemented evaluation metrics on the same dataset.In addition to quantitative and qualitative evaluation of current open-source methods, unresolved issues are highlighted and future research directions are prospected to identify key trends and inspire further exploration. The uniformly implemented evaluation metrics, dataset and collected methods will be made public available at https://github.com/little-misfit/Survey-Of-Virtual-Try-On. | 翻訳日:2024-09-04 22:14:48 公開日:2024-09-03 |
# ホワイトボックス・トランスフォーマーの低レート化:圧縮がすべて存在するか?
White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is? ( http://arxiv.org/abs/2311.13110v3 ) ライセンス: Link先を確認 | Yaodong Yu, Sam Buchanan, Druv Pai, Tianzhe Chu, Ziyang Wu, Shengbang Tong, Hao Bai, Yuexiang Zhai, Benjamin D. Haeffele, Yi Ma, | (参考訳) 本稿では,表現学習の自然な目的として,例えばトークンの集合などのデータの分布を,非コヒーレント部分空間上で支持される低次元ガウス混合に圧縮・変換することが主張される。
このような表現の良さはスパースレート還元と呼ばれる原理的尺度で評価することができ、学習された表現の内在的な情報ゲインと外在的な空間性を同時に最大化する。
この観点からは、トランスフォーマーを含む一般的なディープネットワークアーキテクチャは、この測定を最適化するための反復的なスキームの実現と見なすことができる。
マルチヘッド自己注意演算子は、特徴の符号化速度に近似的な勾配降下ステップを実装して表現を圧縮し、その後の多層パーセプトロンは特徴を拡大する。
これは、数学的に完全に解釈可能なCRATEと呼ばれる、ホワイトボックストランスフォーマーのようなディープネットワークアーキテクチャのファミリーにつながる。
本稿では,従来の圧縮符号化の逆変換をCRATEアーキテクチャと同一のクラスで実現可能であることを示す。
したがって、いわゆるホワイトボックスアーキテクチャはエンコーダとデコーダの両方に普遍的である。
実験によると、これらのネットワークは、その単純さにもかかわらず、大規模な現実世界の画像やテキストデータセットの表現を圧縮し、スパーシフィケートすることを学び、高度にエンジニアリングされたトランスフォーマーベースのモデル(ViT、MAE、DINO、BERT、GPT2)に非常に近い性能を達成する。
提案した計算フレームワークは,データ圧縮の統一的な視点から,深層学習の理論と実践のギャップを埋める大きな可能性を実証している。
コードは、https://ma-lab-berkeley.github.io/CRATE で入手できる。
In this paper, we contend that a natural objective of representation learning is to compress and transform the distribution of the data, say sets of tokens, towards a low-dimensional Gaussian mixture supported on incoherent subspaces. The goodness of such a representation can be evaluated by a principled measure, called sparse rate reduction, that simultaneously maximizes the intrinsic information gain and extrinsic sparsity of the learned representation. From this perspective, popular deep network architectures, including transformers, can be viewed as realizing iterative schemes to optimize this measure. Particularly, we derive a transformer block from alternating optimization on parts of this objective: the multi-head self-attention operator compresses the representation by implementing an approximate gradient descent step on the coding rate of the features, and the subsequent multi-layer perceptron sparsifies the features. This leads to a family of white-box transformer-like deep network architectures, named CRATE, which are mathematically fully interpretable. We show, by way of a novel connection between denoising and compression, that the inverse to the aforementioned compressive encoding can be realized by the same class of CRATE architectures. Thus, the so-derived white-box architectures are universal to both encoders and decoders. Experiments show that these networks, despite their simplicity, indeed learn to compress and sparsify representations of large-scale real-world image and text datasets, and achieve performance very close to highly engineered transformer-based models: ViT, MAE, DINO, BERT, and GPT2. We believe the proposed computational framework demonstrates great potential in bridging the gap between theory and practice of deep learning, from a unified perspective of data compression. Code is available at: https://ma-lab-berkeley.github.io/CRATE . | 翻訳日:2024-09-04 22:02:40 公開日:2024-09-03 |
# 弱教師付き校正による世界空間における単眼画像からの人間の動きのキャプチャ
Capturing Human Motion from Monocular Images in World Space with Weak-supervised Calibration ( http://arxiv.org/abs/2311.17460v5 ) ライセンス: Link先を確認 | Wei Yao, Hongwen Zhang, Yunlian Sun, Jinhui Tang, | (参考訳) モノクル画像からの3次元人間の動作回復のための従来の方法は、カメラ座標に依存するため、しばしば不足し、複雑な撮影条件が一般的である現実世界のアプリケーションでは不正確な結果が生じる。
焦点距離ラベルの可用性と多様性の制限により、再構成された3次元人体における不整合問題がさらに悪化する。
これらの課題に対処するため,身体の歪み情報に基づいて焦点距離を予測し,精度の高い焦点距離ラベルを不要としたW-HMRを導入する。
提案手法は2次元監視精度と回復精度を向上させる。
さらに、不正確なカメラ回転予測に伴う誤差の蓄積を回避し、世界空間における可視的再構成のための身体配向を補正するOrientCorrectモジュールを提案する。
我々の貢献には、カメラのキャリブレーション技術、効果的な配向補正モジュール、およびカメラと世界の両方の座標における人間の運動回復の一般化性と精度を大幅に向上させるデカップリング戦略が含まれる。
W-HMRのロバスト性は、様々なデータセットに関する広範な実験を通じて検証され、既存の手法よりもその優位性を示している。
コードとデモはプロジェクトページ https://yw0208.github.io/w-hmr/ で公開されている。
Previous methods for 3D human motion recovery from monocular images often fall short due to reliance on camera coordinates, leading to inaccuracies in real-world applications where complex shooting conditions are prevalent. The limited availability and diversity of focal length labels further exacerbate misalignment issues in reconstructed 3D human bodies. To address these challenges, we introduce W-HMR, a weak-supervised calibration method that predicts "reasonable" focal lengths based on body distortion information, eliminating the need for precise focal length labels. Our approach enhances 2D supervision precision and recovery accuracy. Additionally, we present the OrientCorrect module, which corrects body orientation for plausible reconstructions in world space, avoiding the error accumulation associated with inaccurate camera rotation predictions. Our contributions include a novel weak-supervised camera calibration technique, an effective orientation correction module, and a decoupling strategy that significantly improves the generalizability and accuracy of human motion recovery in both camera and world coordinates. The robustness of W-HMR is validated through extensive experiments on various datasets, showcasing its superiority over existing methods. Codes and demos have been released on the project page https://yw0208.github.io/w-hmr/. | 翻訳日:2024-09-04 22:02:40 公開日:2024-09-03 |
# CAST: 空間と時間におけるクロスアテンションとビデオアクション認識
CAST: Cross-Attention in Space and Time for Video Action Recognition ( http://arxiv.org/abs/2311.18825v2 ) ライセンス: Link先を確認 | Dongho Lee, Jongseo Lee, Jinwoo Choi, | (参考訳) ビデオにおける人間の行動を認識するには、空間的および時間的理解が必要である。
既存のアクション認識モデルのほとんどは、ビデオの時空間的バランスの取れた理解を欠いている。
本研究では,RGB入力のみを用いたビデオの時空間的バランスの取れた理解を実現する,CAST (Cross-Attention in Space and Time) と呼ばれる新しい2ストリームアーキテクチャを提案する。
提案するボトルネック・クロスアテンション機構により,空間的・時間的専門家モデルによる情報交換と相乗的予測が可能となり,性能が向上する。
本研究では,EPIC-KITCHENS-100, something-Something-V2, Kinetics-400 という,異なる特徴を持つ公開ベンチマークを用いて提案手法の有効性を検証した。
提案手法は,これらのデータセットに対して常に良好な性能を示す一方,既存手法の性能はデータセットの特性に応じて変動する。
Recognizing human actions in videos requires spatial and temporal understanding. Most existing action recognition models lack a balanced spatio-temporal understanding of videos. In this work, we propose a novel two-stream architecture, called Cross-Attention in Space and Time (CAST), that achieves a balanced spatio-temporal understanding of videos using only RGB input. Our proposed bottleneck cross-attention mechanism enables the spatial and temporal expert models to exchange information and make synergistic predictions, leading to improved performance. We validate the proposed method with extensive experiments on public benchmarks with different characteristics: EPIC-KITCHENS-100, Something-Something-V2, and Kinetics-400. Our method consistently shows favorable performance across these datasets, while the performance of existing methods fluctuates depending on the dataset characteristics. | 翻訳日:2024-09-04 22:02:40 公開日:2024-09-03 |
# 限定ラベリングデータによる学習の安定性とそのランダム性への影響に関する調査
A Survey on Stability of Learning with Limited Labelled Data and its Sensitivity to the Effects of Randomness ( http://arxiv.org/abs/2312.01082v2 ) ライセンス: Link先を確認 | Branislav Pecher, Ivan Srba, Maria Bielikova, | (参考訳) ラベル付きデータに制限された学習(インコンテキスト学習、微調整、メタラーニング、少数ショット学習など)は、少量のラベル付きサンプルを使用してモデルを効果的にトレーニングすることを目的としている。
しかし、これらのアプローチは、トレーニング過程における非決定性による無制御ランダム性の影響に過度に敏感であることが観察されている。
ランダム性はモデルの安定性に悪影響を及ぼし、トレーニング実行中の結果に大きなばらつきをもたらす。
このような感度が無視されている場合、それは意図せず、しかし残念なことに、研究の進歩に対する想像上の認識を生み出します。
近年、この領域は研究の関心を集め始め、関連研究の数は増え続けている。
本研究では,限定ラベル付きデータを用いた学習の安定性に及ぼすランダム性の影響について,415の論文の概要を概説する。
論文で対処される4つの主要なタスク(調査/評価、決定、緩和、ベンチマーク/コンペア/報告ランダムネス効果)を区別し、それぞれに結果を与えます。
さらに,7つの課題を特定し,議論し,さらなる研究を促進するための可能な方向性とともに課題を開放する。
この調査の最終的な目標は、この成長する研究領域の重要性を強調することである。
Learning with limited labelled data, such as prompting, in-context learning, fine-tuning, meta-learning or few-shot learning, aims to effectively train a model using only a small amount of labelled samples. However, these approaches have been observed to be excessively sensitive to the effects of uncontrolled randomness caused by non-determinism in the training process. The randomness negatively affects the stability of the models, leading to large variances in results across training runs. When such sensitivity is disregarded, it can unintentionally, but unfortunately also intentionally, create an imaginary perception of research progress. Recently, this area started to attract research attention and the number of relevant studies is continuously growing. In this survey, we provide a comprehensive overview of 415 papers addressing the effects of randomness on the stability of learning with limited labelled data. We distinguish between four main tasks addressed in the papers (investigate/evaluate; determine; mitigate; benchmark/compare/report randomness effects), providing findings for each one. Furthermore, we identify and discuss seven challenges and open problems together with possible directions to facilitate further research. The ultimate goal of this survey is to emphasise the importance of this growing research area, which so far has not received an appropriate level of attention, and reveal impactful directions for future research. | 翻訳日:2024-09-04 22:02:40 公開日:2024-09-03 |
# トルンヒルベルト空間における1量子回転による絡み合い生成
Entanglement generation via single-qubit rotations in a torn Hilbert space ( http://arxiv.org/abs/2312.04507v2 ) ライセンス: Link先を確認 | Tao Zhang, Zhihao Chi, Jiazhong Hu, | (参考訳) 我々は、トータルヒルベルト空間における大域的な単一量子ビット回転のみを持つ任意の対称交絡状態を生成するための効率的かつ単純なプロトコルを提案する。
このシステムは、光学キャビティ内の原子やメインバスに結合された超伝導量子ビットなどの共振器内のスピン-1/2量子ビットに基づいている。
共振器に光やマイクロ波を送ることで、特定の角運動状態(ディック状態)の交流スタークシフトを誘導する。
そして、隣接するディック状態間の遷移を妨げる障壁を生成し、元のヒルベルト空間を断片化することができる。
したがって、単純な大域的な単一量子ビットの回転は非常に非自明なものとなり、多体系間の絡み合いが生じる。
ディック状態のエネルギーシフトの最適制御により、任意の対称交絡状態を生成することができる。
また、W状態、スピンスクイーズ状態(SSS)、Greenberger-Horne-Zeilinger状態(GHZ)状態を含む、ごくわずかなステップで、ほぼ一様であるような有用な状態の多様を生成できることを例示する。
特に、SSSは、ハイゼンベルク極限 (HL) に近づくために、squeezingパラメータ $\xi_R^2\sim1/N^{0.843}$ の1ステップで作成できる。
我々の発見は、全てのマルチキュービット制御を単にオン/オフマイクロ波に組み込む単一キュービット駆動による普遍的絡み合い生成の方法を確立している。
既存の技術で利用可能な変分量子オプティマイザに直接応用できる。
We propose an efficient yet simple protocol to generate arbitrary symmetric entangled states with only global single-qubit rotations in a torn Hilbert space. The system is based on spin-1/2 qubits in a resonator such as atoms in an optical cavity or superconducting qubits coupled to a main bus. By sending light or microwave into the resonator, it induces AC Stark shifts on particular angular-momentum eigenstates (Dicke states) of qubits. Then we are able to generate barriers that hinder transitions between adjacent Dicke states and tear the original Hilbert space into pieces. Therefore, a simple global single-qubit rotation becomes highly non-trivial, and thus generates entanglement among the many-body system. By optimal control of energy shifts on Dicke states, we are able to generate arbitrary symmetric entangled states. We also exemplify that we can create varieties of useful states with near-unity fidelities in only one or very few steps, including W states, spin-squeezed states (SSS), and Greenberger-Horne-Zeilinger (GHZ) states. Particularly, the SSS can be created by only one step with a squeezing parameter $\xi_R^2\sim1/N^{0.843}$ approaching the Heisenberg limit (HL). Our finding establishes a way for universal entanglement generations with only single-qubit drivings where all the multiple-qubit controls are integrated into simply switching on/off microwave. It has direct applications in the variational quantum optimizer which is available with existing technology. | 翻訳日:2024-09-04 22:02:40 公開日:2024-09-03 |
# TALDS-Net:Few-shot画像分類のためのタスク対応ローカル記述子の選択
TALDS-Net: Task-Aware Adaptive Local Descriptors Selection for Few-shot Image Classification ( http://arxiv.org/abs/2312.05449v2 ) ライセンス: Link先を確認 | Qian Qiao, Yu Xie, Ziyin Zeng, Fanzhang Li, | (参考訳) 少ない画像分類は、見知らぬ新しいクラスを少数のサンプルで分類することを目的としている。
近年の研究では、深部局所記述子は画像レベルの特徴に比べて表現能力が向上していることが示されている。
しかし、既存のほとんどのメソッドは、すべてのローカルディスクリプタを採用するか、あるいは部分ディスクリプタを直接利用するかにのみ依存しているため、重要な情報が失われる可能性がある。
さらに、これらのメソッドは主に、サポート記述子を見下ろしながら、クエリ記述子の選択を強調する。
本稿では,タスク対応型ローカル記述子選択ネットワーク(TALDS-Net)を提案する。
具体的には、各ローカルサポート記述子と他のローカルサポート記述子との類似性を比較して、最適なサポート記述子サブセットを取得し、クエリ記述子と最適なサポートサブセットを比較し、差別的なクエリ記述子を得る。
我々のTALDS-Netは、一般的なデータセットときめ細かいデータセットの両方で最先端の手法より優れています。
Few-shot image classification aims to classify images from unseen novel classes with few samples. Recent works demonstrate that deep local descriptors exhibit enhanced representational capabilities compared to image-level features. However, most existing methods solely rely on either employing all local descriptors or directly utilizing partial descriptors, potentially resulting in the loss of crucial information. Moreover, these methods primarily emphasize the selection of query descriptors while overlooking support descriptors. In this paper, we propose a novel Task-Aware Adaptive Local Descriptors Selection Network (TALDS-Net), which exhibits the capacity for adaptive selection of task-aware support descriptors and query descriptors. Specifically, we compare the similarity of each local support descriptor with other local support descriptors to obtain the optimal support descriptor subset and then compare the query descriptors with the optimal support subset to obtain discriminative query descriptors. Extensive experiments demonstrate that our TALDS-Net outperforms state-of-the-art methods on both general and fine-grained datasets. | 翻訳日:2024-09-04 21:52:48 公開日:2024-09-03 |
# プルーニングとドメイン選択によるイジング最適化問題の高速数値解法
Fast Numerical Solver of Ising Optimization Problems via Pruning and Domain Selection ( http://arxiv.org/abs/2312.05837v2 ) ライセンス: Link先を確認 | Langyu Li, Daoyi Dong, Yu Pan, | (参考訳) 量子アンニア、コヒーレントイジングマシン、および量子に着想を得た最適化問題を解決するデジタルイジングマシンは、その短期的応用により急速に発展してきた。
デジタルイジングマシンの数値解法は、従来の計算装置に基づいている。
本研究では,Ising最適化問題に対する高速かつ効率的な解法を提案する。
本アルゴリズムは、Isingモデルのグラフ情報を利用して計算複雑性を低減させるプルーニング法と、離散可能な領域を連続的な領域に緩和して大きな加速をもたらす領域選択法とから構成される。
実験の結果, 従来の解法よりも桁違いに高速であり, ベンチマーク問題に対する量子アニールを含む量子インスピレーションアニールよりも少なくとも2倍高速であることがわかった。
ハードウェアに対する要求が緩和され、量子アニールよりも低コストになるため、提案した解法は、挑戦的な最適化問題の解決における短期的応用の可能性と、量子デバイスの利点を評価するためのベンチマークとして機能する。
Quantum annealers, coherent Ising machines and digital Ising machines for solving quantum-inspired optimization problems have been developing rapidly due to their near-term applications. The numerical solvers of the digital Ising machines are based on traditional computing devices. In this work, we propose a fast and efficient solver for the Ising optimization problems. The algorithm consists of a pruning method that exploits the graph information of the Ising model to reduce the computational complexity, and a domain selection method which introduces significant acceleration by relaxing the discrete feasible domain into a continuous one to incorporate the efficient gradient descent method. The experiment results show that our solver can be an order of magnitude faster than the classical solver, and at least two times faster than the quantum-inspired annealers including the simulated quantum annealing on the benchmark problems. With more relaxed requirements on hardware and lower cost than quantum annealing, the proposed solver has the potential for near-term application in solving challenging optimization problems as well as serving as a benchmark for evaluating the advantage of quantum devices. | 翻訳日:2024-09-04 21:52:48 公開日:2024-09-03 |
# Maggieの秘密を盗む - FPGAリバースエンジニアリングによるIP盗難の課題について
Stealing Maggie's Secrets -- On the Challenges of IP Theft Through FPGA Reverse Engineering ( http://arxiv.org/abs/2312.06195v3 ) ライセンス: Link先を確認 | Simon Klix, Nils Albartus, Julian Speith, Paul Staat, Alice Verstege, Annika Wilde, Daniel Lammers, Jörn Langheinrich, Christian Kison, Sebastian Sester-Wehle, Daniel Holcomb, Christof Paar, | (参考訳) 知的財産権(英: Intellectual Property、IP)は、米国だけでも毎年数十億ドルの損害を被る、金融と評判の大きな被害の原因である。
フィールドプログラマブルゲートアレイ(FPGA)はIP盗難に特に影響を受けており、その構成ファイルはIPを適度な努力でゲートレベルのネットリストにマップできるプロプライエタリなフォーマットで含んでいる。
この脅威にもかかわらず、この問題の科学的理解は現実に欠けており、学界におけるFPGAからのIP盗難の詳細な評価を妨げている。
iPhone 7で見つかったLattice iCE40 FPGAのケーススタディを通じて、この問題に対処する。
AppleはこのFPGAをMaggieと呼んでいる。
マギーに実装されたプロプライエタリな信号処理アルゴリズムをリバースエンジニアリングすることで、FPGAのIP盗難に要する実際の取り組みと、攻撃者が途中で直面している課題について、新たな洞察を得られる。
ケーススタディにより、我々は、必要な手作業を大幅に削減し、FPGAの実装とアーキテクチャの多種多様な範囲に適用できる一般化されたネットリストリバースエンジニアリング技術を導入しました。
これらの手法を,Xilinx と Lattice FPGA 用に合成された異なるFPGAアプリケーションを表す6つのベンチマークと,エンドツーエンドのホワイトボックスケーススタディで評価した。
最後に,今後の研究を奨励し,コミュニティが現実的な脅威評価を行えるようにし,新たな対策の評価を容易にするために,ネットリストのリバースエンジニアリング手法を包括したオープンソースツールスイートを提供する。
Intellectual Property (IP) theft is a cause of major financial and reputational damage, reportedly in the range of hundreds of billions of dollars annually in the U.S. alone. Field Programmable Gate Arrays (FPGAs) are particularly exposed to IP theft, because their configuration file contains the IP in a proprietary format that can be mapped to a gate-level netlist with moderate effort. Despite this threat, the scientific understanding of this issue lacks behind reality, thereby preventing an in-depth assessment of IP theft from FPGAs in academia. We address this discrepancy through a real-world case study on a Lattice iCE40 FPGA found inside iPhone 7. Apple refers to this FPGA as Maggie. By reverse engineering the proprietary signal-processing algorithm implemented on Maggie, we generate novel insights into the actual efforts required to commit FPGA IP theft and the challenges an attacker faces on the way. Informed by our case study, we then introduce generalized netlist reverse engineering techniques that drastically reduce the required manual effort and are applicable across a diverse spectrum of FPGA implementations and architectures. We evaluate these techniques on six benchmarks that are representative of different FPGA applications and have been synthesized for Xilinx and Lattice FPGAs, as well as in an end-to-end white-box case study. Finally, we provide a comprehensive open-source tool suite of netlist reverse engineering techniques to foster future research, enable the community to perform realistic threat assessments, and facilitate the evaluation of novel countermeasures. | 翻訳日:2024-09-04 21:52:48 公開日:2024-09-03 |
# 自由空間結合型イオンをもつ量子リピータノード
Quantum repeater node with free-space coupled trapped ions ( http://arxiv.org/abs/2312.14805v3 ) ライセンス: Link先を確認 | Max Bergerhoff, Omar Elshehy, Stephan Kucera, Matthias Kreis, Jürgen Eschner, | (参考訳) 量子リピータセルは、直接伝送における避けられない繊維損失による距離制限を克服できるため、量子ネットワークの基本的な構成要素である。
量子メモリとして働く2つのトラップにおいて、自由空間を結合した$^{40}$Ca$^+$イオンをベースとした量子リピータセルの実装を実証する。
本研究では, 個々のイオンからの単一光子の放出を制御し, 原子光子と光子光子の絡み合いの非同期発生を実証する。
我々は、その忠実さと、生成されたレートのスケーリングについて論じる。
The quantum repeater cell is a basic building block for a quantum network, as it allows to overcome the distance limitations due to unavoidable fiber loss in direct transmission. We demonstrate the implementation of a quantum repeater cell, based on two free-space coupled $^{40}$Ca$^+$ ions in the same trap that act as quantum memories. We demonstrate the asynchronous generation of atom-photon and photon-photon entanglement by controlled emission of single photons from the individually addressed ions and entanglement swapping. We discuss the fidelity as well as the scaling of the generated rate. | 翻訳日:2024-09-04 21:52:48 公開日:2024-09-03 |
# 単位事業の地方認証
Local certification of unitary operations ( http://arxiv.org/abs/2312.17037v2 ) ライセンス: Link先を確認 | Ryszard Kukulski, Mateusz Stępniak, Kamil Hendzel, Łukasz Pawela, Bartłomiej Gardas, Zbigniew Puchała, | (参考訳) 本研究では、量子仮説テストの自然な拡張であるユニタリ量子チャネルの局所的な証明を分析する。
入力時の積状態に対応する2つのシステムで動作する量子チャネルの特別な場合を考える。
目的は、補助システムとの絡み合いによるアシストを考慮して、I型エラーの特定の最大確率を与えられたII型エラーの確率を最小化することである。
本結果は,局所認証問題と一元行列の積数範囲の関連性を示す。
最適局所戦略は補助的システムの使用を必要とせず,一方通行の古典的通信を単一ラウンドで行うだけでよいことを示す。
さらに,局所的およびグローバルな認証戦略を比較し,局所的戦略が最適であることを示す。
最後に、フォン・ノイマン測定の局所的証明の応用についても論じる。
In this work, we analyze the local certification of unitary quantum channels, which is a natural extension of quantum hypothesis testing. A particular case of a quantum channel operating on two systems corresponding to product states at the input, is considered. The goal is to minimize the probability of the type II error, given a specified maximum probability of the type I error, considering assistance through entanglement with auxiliary systems. Our result indicates connection of the local certification problem with a product numerical range of unitary matrices. We show that the optimal local strategy does not need usage of auxiliary systems and requires only single round of one-way classical communication. Moreover, we compare local and global certification strategies and show that typically local strategies are optimal, yet in some extremal cases, where global strategies make no errors, local ones may fail miserably. Finally, some application for local certification of von Neumann measurements are discussed as well. | 翻訳日:2024-09-04 21:52:48 公開日:2024-09-03 |
# 一般非相互格子における拡張虚ゲージ変換
Extended imaginary gauge transformation in a general nonreciprocal lattice ( http://arxiv.org/abs/2401.12785v2 ) ライセンス: Link先を確認 | Yunyao Qi, Jinghui Pi, Yuquan Wu, Heng Lin, Chao Zheng, Gui-Lu Long, | (参考訳) イマジナリーゲージ変換(IGT)は、非エルミートハミルトニアンを実際のスペクトルでエルミート的なスペクトルに変換することによって、非エルミート的な皮膚効果を明確に理解する。
本稿では、一般の非相互格子モデルにおいて、このアプローチを複素スペクトル状態にまで拡張する。
擬エルミート対称性のクラスにおけるIGTヒンジの有効性を明らかにする。
ハミルトンの一般化されたブリルアンゾーンは、そのような擬ハーミティティーを尊重し、連続体バンド、スキンモードの局在長、および関連する位相数への容易にアクセスできる円であることが示される。
さらに、IGTの適用性や、近辺ホッピング以上の擬似ハーモニティ(擬似ハーモニティ)について検討し、グラフィカルな解釈を提供する。
本理論は,非相互トリマーSu-Schrieffer-Heegerモデルにおけるバルクバウンダリ対応の確立と,2次元波多野・ネルソンモデルにおけるスキンモードの局所化挙動の解析に応用した。
Imaginary gauge transformation (IGT) provides a clear understanding of the non-Hermitian skin effect by transforming the non-Hermitian Hamiltonians with real spectra into Hermitian ones. In this paper, we extend this approach to the complex spectrum regime in a general nonreciprocal lattice model. We unveil the validity of IGT hinges on a class of pseudo-Hermitian symmetry. The generalized Brillouin zone of Hamiltonians respect such pseudo-Hermiticity is demonstrated to be a circle, which enables easy access to the continuum bands, localization length of skin modes, and relevant topological numbers. Furthermore, we investigate the applicability of IGT and the underlying pseudo-Hermiticity beyond nearest-neighbor hopping, offering a graphical interpretation. Our theoretical framework is applied to establish bulk-boundary correspondence in the nonreciprocal trimer Su-Schrieffer-Heeger model and to analyze the localization behaviors of skin modes in the two-dimensional Hatano-Nelson model. | 翻訳日:2024-09-04 21:52:48 公開日:2024-09-03 |
# テキスト表現による心内電図の解釈
Interpretation of Intracardiac Electrograms Through Textual Representations ( http://arxiv.org/abs/2402.01115v4 ) ライセンス: Link先を確認 | William Jongwon Han, Diana Gomez, Avi Alok, Chaojing Duan, Michael A. Rosenberg, Douglas Weber, Emerson Liu, Ding Zhao, | (参考訳) 心房細動(AFib)の不規則な電気活動を理解することは心電図における重要な課題である。
重篤なAFib症例では、心内電図(EGM)の収集のためにカテーテル・アブレーションが施行される。
EGMは、心臓の複雑な詳細で局所的な電気活動を提供し、解釈可能な心臓研究に理想的なモダリティである。
人工知能(AI)の最近の進歩は、深層学習フレームワークを使用して、AFib中にEGMを解釈する作業を可能にしている。
さらに、言語モデル(LM)は、特に医療において、目に見えない領域に一般化できるという、例外的な性能を示している。
本研究では,マスク付き言語モデリングによるEMG補間とAFib分類の微調整に事前学習したLMを初めて活用する。
テキストシーケンスとしてEGMを定式化し、他の表現と比較してAFib分類における競合性能を示す。
最後に, モデル行動の多視点的直観を提供するための総合的解釈可能性研究を行い, 臨床応用に大きな恩恵をもたらす可能性がある。
Understanding the irregular electrical activity of atrial fibrillation (AFib) has been a key challenge in electrocardiography. For serious cases of AFib, catheter ablations are performed to collect intracardiac electrograms (EGMs). EGMs offer intricately detailed and localized electrical activity of the heart and are an ideal modality for interpretable cardiac studies. Recent advancements in artificial intelligence (AI) has allowed some works to utilize deep learning frameworks to interpret EGMs during AFib. Additionally, language models (LMs) have shown exceptional performance in being able to generalize to unseen domains, especially in healthcare. In this study, we are the first to leverage pretrained LMs for finetuning of EGM interpolation and AFib classification via masked language modeling. We formulate the EGM as a textual sequence and present competitive performances on AFib classification compared against other representations. Lastly, we provide a comprehensive interpretability study to provide a multi-perspective intuition of the model's behavior, which could greatly benefit the clinical use. | 翻訳日:2024-09-04 21:52:48 公開日:2024-09-03 |
# データから一般化された顔モデルを学ぶ
Learning a Generalized Physical Face Model From Data ( http://arxiv.org/abs/2402.19477v2 ) ライセンス: Link先を確認 | Lingchen Yang, Gaspard Zoss, Prashanth Chandran, Markus Gross, Barbara Solenthaler, Eftychios Sifakis, Derek Bradley, | (参考訳) 物理的ベースシミュレーションは、3次元の顔のアニメーションにおいて強力なアプローチであり、結果として生じる変形は物理的制約によって制御され、容易に自己衝突を解決し、外部の力に反応し、現実的な解剖学的編集を行うことができる。
今日の手法はデータ駆動であり、キャプチャーされた皮膚形状から有限要素のアクチュエーターが推測される。
残念ながら、これらのアプローチは、素材空間を初期化し、各文字の変形モデルを個別に学習する複雑さのため、広く採用されていない。
本研究では,大規模な3次元顔データセットから学習する一般化された物理顔モデルを提案することにより,物理ベースの顔アニメーションをより使いやすくすることを目的とする。
トレーニングが終わると、私たちのモデルはすぐに見当たらないアイデンティティに適合し、準備の整った物理顔モデルを自動的に生成できます。
フィッティングは、単一の3D顔スキャン、あるいは単一の顔画像を提供するのと同じくらい簡単です。
調整後、直感的なアニメーションコントロールと、文字間でアニメーションを再ターゲティングする機能を提供します。
その間、得られたアニメーションは衝突回避、重力、麻痺、骨の変形などの物理的効果を許容する。
Physically-based simulation is a powerful approach for 3D facial animation as the resulting deformations are governed by physical constraints, allowing to easily resolve self-collisions, respond to external forces and perform realistic anatomy edits. Today's methods are data-driven, where the actuations for finite elements are inferred from captured skin geometry. Unfortunately, these approaches have not been widely adopted due to the complexity of initializing the material space and learning the deformation model for each character separately, which often requires a skilled artist followed by lengthy network training. In this work, we aim to make physics-based facial animation more accessible by proposing a generalized physical face model that we learn from a large 3D face dataset. Once trained, our model can be quickly fit to any unseen identity and produce a ready-to-animate physical face model automatically. Fitting is as easy as providing a single 3D face scan, or even a single face image. After fitting, we offer intuitive animation controls, as well as the ability to retarget animations across characters. All the while, the resulting animations allow for physical effects like collision avoidance, gravity, paralysis, bone reshaping and more. | 翻訳日:2024-09-04 21:52:48 公開日:2024-09-03 |
# 分散型多エージェント協調運転のためのエージェント非依存型集中訓練
Agent-Agnostic Centralized Training for Decentralized Multi-Agent Cooperative Driving ( http://arxiv.org/abs/2403.11914v2 ) ライセンス: Link先を確認 | Shengchao Yan, Lukas König, Wolfram Burgard, | (参考訳) 自動運転車によるアクティブな交通管理は、渋滞を減らし、交通の流れを改善できる可能性がある。
しかし、実世界のシナリオに有効なアルゴリズムを開発するには、無限水平交通流と部分観測可能性に関する課題を克服する必要がある。
これらの問題に対処し、さらにトラフィック管理を分散化するために、単エージェント強化学習を用いて自動運転車の分散型協調運転ポリシーを学習する非対称アクター批判モデルを提案する。
マスキングによる注目ニューラルネットワークの利用により,マルチエージェント強化学習におけるエージェントやエージェント固有の経験バッファの必要性を排除し,現実のトラフィックダイナミクスと部分観測可能性の効率よく管理できる。
各種交通シナリオに対する広範囲な評価は,重要なボトルネック点における交通流改善における本手法の有意な可能性を示している。
さらに,交通規制に厳格に従う保守的な自動運転車運転行動がもたらす課題に対処し,安全を損なうことなく,協調政策が潜在的減速を効果的に軽減することを示す。
Active traffic management with autonomous vehicles offers the potential for reduced congestion and improved traffic flow. However, developing effective algorithms for real-world scenarios requires overcoming challenges related to infinite-horizon traffic flow and partial observability. To address these issues and further decentralize traffic management, we propose an asymmetric actor-critic model that learns decentralized cooperative driving policies for autonomous vehicles using single-agent reinforcement learning. By employing attention neural networks with masking, our approach efficiently manages real-world traffic dynamics and partial observability, eliminating the need for predefined agents or agent-specific experience buffers in multi-agent reinforcement learning. Extensive evaluations across various traffic scenarios demonstrate our method's significant potential in improving traffic flow at critical bottleneck points. Moreover, we address the challenges posed by conservative autonomous vehicle driving behaviors that adhere strictly to traffic rules, showing that our cooperative policy effectively alleviates potential slowdowns without compromising safety. | 翻訳日:2024-09-04 21:52:48 公開日:2024-09-03 |
# スーパーAIがどんなものか、Fermiのパラドックスを解説する
Cooperative Evolutionary Pressure and Diminishing Returns Might Explain the Fermi Paradox: On What Super-AIs Are Like ( http://arxiv.org/abs/2404.03685v5 ) ライセンス: Link先を確認 | Daniel Vallstrom, | (参考訳) 進化的アプローチでは、モラルの基盤は協力の問題への適応として説明できる。
広い意味での「進化」によって、進化の条件を満たす進化するAIは、生物学的実体と同じ協力的な進化の圧力を受けることになる。
ここでは、材料安全と富の増大としての協力の増加の適応性について論じ、人間、他の社会、AIについて論じる。
物質資源へのアクセスの増加による有益なリターンの最小化は、例えば銀河全体を植民地化する動機がない可能性も示唆している。
古い社会は、スーパーAIが実現可能で、より適している可能性が高いため、スーパーAIにエンゲージし、道を譲ることが可能である、とも主張されている。
クローシングは、道徳や目標が生活や社会に影響を与えるための効果的な方法、環境、文化、法律を強調し、食事の方法によって例示されるものである。
適応されたアルゴリズムは、例えば銀河を素早く植民地化するアルゴリズム、減少するリターンの下での協調と公正性の進化のモデル、およびシグナル発生をシミュレートするソフトウェアである。
また、各実体が一定の空間を占有するため、数学的理由から指数的植民地化や複製はできないことも注目されている。
With an evolutionary approach, the basis of morality can be explained as adaptations to problems of cooperation. With 'evolution' taken in a broad sense, evolving AIs that satisfy the conditions for evolution to apply will be subject to the same cooperative evolutionary pressure as biological entities. Here the adaptiveness of increased cooperation as material safety and wealth increase is discussed -- for humans, for other societies, and for AIs. Diminishing beneficial returns from increased access to material resources also suggests the possibility that, on the whole, there will be no incentive to for instance colonize entire galaxies, thus providing a possible explanation of the Fermi paradox, wondering where everybody is. It is further argued that old societies could engender, give way to, super-AIs, since it is likely that super-AIs are feasible, and fitter. Closing is an aside on effective ways for morals and goals to affect life and society, emphasizing environments, cultures, and laws, and exemplified by how to eat. Appended are an algorithm for colonizing for example a galaxy quickly, models of the evolution of cooperation and fairness under diminishing returns, and software for simulating signaling development. It is also noted that there can be no exponential colonization or reproduction, for mathematical reasons, as each entity takes up a certain amount of space. | 翻訳日:2024-09-04 21:52:48 公開日:2024-09-03 |
# 責任ある生成AIに関する調査
A Survey on Responsible Generative AI: What to Generate and What Not ( http://arxiv.org/abs/2404.05783v2 ) ライセンス: Link先を確認 | Jindong Gu, | (参考訳) 近年,大規模言語モデルやテキスト・ツー・イメージモデルのような生成型AI(GenAI)が,さまざまな領域で注目されている。
しかし、これらのモデルによるコンテンツの責任ある生成を保証することは、実際の適用性にとって不可欠である。
GenAIはどのような責任を負うべきで、どのような責任を負うべきでなければいけないのか?
そこで本研究では,テキスト生成モデルと視覚生成モデルの両方において,真理コンテンツの生成,有害な内容の回避,有害な指導の拒否,データ関連コンテンツの漏洩,生成内容の確認という5つの重要事項を概説する。
具体的には、これらの要件に対処する上での最近の進歩と課題について概観する。
さらに、医療、教育、金融、人工知能分野における責任あるGenAIの重要性を議論し、強調する。
本稿では,テキスト生成モデルと視覚生成モデルの両方について統一的な視点で検討し,実践的安全性に関する知見を提供するとともに,コミュニティの責任を負うGenAI構築にさらなる利益をもたらすことを目的とする。
In recent years, generative AI (GenAI), like large language models and text-to-image models, has received significant attention across various domains. However, ensuring the responsible generation of content by these models is crucial for their real-world applicability. This raises an interesting question: What should responsible GenAI generate, and what should it not? To answer the question, this paper investigates the practical responsible requirements of both textual and visual generative models, outlining five key considerations: generating truthful content, avoiding toxic content, refusing harmful instruction, leaking no training data-related content, and ensuring generated content identifiable. Specifically, we review recent advancements and challenges in addressing these requirements. Besides, we discuss and emphasize the importance of responsible GenAI across healthcare, education, finance, and artificial general intelligence domains. Through a unified perspective on both textual and visual generative models, this paper aims to provide insights into practical safety-related issues and further benefit the community in building responsible GenAI. | 翻訳日:2024-09-04 21:52:48 公開日:2024-09-03 |
# Unbundle-Rewrite-Rebundle: JavaScriptバンドルにおけるプライバシハーミングコードの実行時検出と書き換え
Unbundle-Rewrite-Rebundle: Runtime Detection and Rewriting of Privacy-Harming Code in JavaScript Bundles ( http://arxiv.org/abs/2405.00596v3 ) ライセンス: Link先を確認 | Mir Masood Ali, Peter Snyder, Chris Kanich, Hamed Haddadi, | (参考訳) この研究は、Unbundle-Rewrite-Rebundle(URR)という、バンドルされたJavaScriptコードのプライバシ保護部分を検出し、実行時にコードを書き直して、周囲のコードやアプリケーション全体を壊すことなく、プライバシ保護の動作を削除するシステムを提示している。
URRはJavaScriptバンドルの問題に対する新しい解決策であり、Webサイトは複数のコードユニットを単一のファイルにプリコンパイルする。
従来のコンテンツフィルタリングツールがURLに依存している場合、URRはASTレベルでコードを解析し、有害なASTサブツリーをプライバシと機能的な代替品に置き換える。
我々は,URRのオープンソース実装をFirefoxエクステンションとして提案し,Tranco 10k上にデプロイされた最も一般的なバンドルシステム(Webpack)によって生成されたJavaScriptバンドルに対して評価する。
我々は、JavaScriptバンドルに含まれる3つの代表的なプライバシー保護ライブラリを検出して書き直す際に、精度(1.00)、リコール(0.95)、スピード(0.43s)でIRRを評価し、現在のプライバシツールに従わない、大規模で成長中の盲点に対する効果的なアプローチとして、URRを見出した。
This work presents Unbundle-Rewrite-Rebundle (URR), a system for detecting privacy-harming portions of bundled JavaScript code and rewriting that code at runtime to remove the privacy-harming behavior without breaking the surrounding code or overall application. URR is a novel solution to the problem of JavaScript bundles, where websites pre-compile multiple code units into a single file, making it impossible for content filters and ad-blockers to differentiate between desired and unwanted resources. Where traditional content filtering tools rely on URLs, URR analyzes the code at the AST level, and replaces harmful AST sub-trees with privacy-and-functionality maintaining alternatives. We present an open-sourced implementation of URR as a Firefox extension and evaluate it against JavaScript bundles generated by the most popular bundling system (Webpack) deployed on the Tranco 10k. We evaluate URR by precision (1.00), recall (0.95), and speed (0.43s per script) when detecting and rewriting three representative privacy-harming libraries often included in JavaScript bundles, and find URR to be an effective approach to a large-and-growing blind spot unaddressed by current privacy tools. | 翻訳日:2024-09-04 21:52:48 公開日:2024-09-03 |
# SMT支援プロオブオリエントプログラミングのためのニューラル合成に向けて
Towards Neural Synthesis for SMT-Assisted Proof-Oriented Programming ( http://arxiv.org/abs/2405.01787v2 ) ライセンス: Link先を確認 | Saikat Chakraborty, Gabriel Ebner, Siddharth Bhat, Sarah Fakhoury, Sakina Fatima, Shuvendu Lahiri, Nikhil Swamy, | (参考訳) 証明指向プログラムは、計算内容とプログラムの正しさの証明を混合する。
しかし、Satifiability Modulo Theories (SMT) を用いて F* などの言語での証明を自動化するにもかかわらず、プログラミングと証明に関わる人間の努力は依然として重要なものである。
証明指向プログラムの構築を自動化するためにAIを使用する研究を促進するために,WindowsやLinux,Python,Firefoxなど,実運用システムで使用されているソフトウェアを含む,600万行のオープンソースF*プログラムと証明のデータセットをキュレートする。
我々のデータセットには、約32KのトップレベルF*定義が含まれており、それぞれが型指向プログラムと証明合成問題を表す。
候補解の正しさを確認するためにF*を問うプログラムフラグメントチェッカーを提供する。
再現性のあるプログラムフラグメントチェッカーと組み合わさったSMT支援プログラム証明の最大コーパスである。
このデータセットに基づいて,AIを用いてプログラムとその証明をF*で合成し,有望な結果を得る。
我々の主な発見は、微調整された小さな言語モデル(Phi-2やStarCoderなど)の性能が、より低い計算コストで大きな言語モデル(GPT-4など)と良好に比較できることである。
また,多種多様な検索手法を同定し,性能を著しく向上させた。
詳細なエラー解析とケーススタディにより、モデルと技術の潜在的な長所と短所を特定し、今後の改善に向けた方向性を提案する。
Proof-oriented programs mix computational content with proofs of program correctness. However, the human effort involved in programming and proving is still substantial, despite the use of Satisfiability Modulo Theories (SMT) solvers to automate proofs in languages such as F*. Seeking to spur research on using AI to automate the construction of proof-oriented programs, we curate a dataset of 600K lines of open-source F* programs and proofs, including software used in production systems ranging from Windows and Linux, to Python and Firefox. Our dataset includes around 32K top-level F* definitions, each representing a type-directed program and proof synthesis problem -- producing a definition given a formal specification expressed as an F* type. We provide a program-fragment checker that queries F* to check the correctness of candidate solutions. We believe this is the largest corpus of SMT-assisted program proofs coupled with a reproducible program-fragment checker. Grounded in this dataset, we investigate the use of AI to synthesize programs and their proofs in F*, with promising results. Our main finding in that the performance of fine-tuned smaller language models (such as Phi-2 or StarCoder) compare favorably with large language models (such as GPT-4), at a much lower computational cost. We also identify various type-based retrieval augmentation techniques and find that they boost performance significantly. With detailed error analysis and case studies, we identify potential strengths and weaknesses of models and techniques and suggest directions for future improvements. | 翻訳日:2024-09-04 21:52:48 公開日:2024-09-03 |
# 解釈可能な機械学習は病気の予後を高める:COVID-19と今後の応用
Interpretable Machine Learning Enhances Disease Prognosis: Applications on COVID-19 and Onward ( http://arxiv.org/abs/2405.11672v3 ) ライセンス: Link先を確認 | Jinzhi Shen, Ke Ma, | (参考訳) 新型コロナウイルス(COVID-19)のパンデミックを受けて、解釈可能な機械学習技術の統合は大きな注目を集め、情報的な臨床的意思決定に不可欠な透明で理解可能な洞察を提供してきた。
本論文は,呼吸器疾患の予後予測における解釈可能な機械学習の応用,特に新型コロナウイルスとその今後の研究・臨床実践への意義を考察する。
我々は、既存の臨床領域の知識を組み込むだけでなく、データから新たな情報を探索する学習能力を持つ各種機械学習モデルについてレビューした。
これらのモデルと経験は、現在の危機の管理を助けるだけでなく、将来の病気の流行に対応するための約束も持つ。
解釈可能な機械学習を活用することで、医療システムは、その準備と応答能力を高め、患者の成果を改善し、今後数年間の呼吸器疾患の影響を軽減することができる。
In response to the COVID-19 pandemic, the integration of interpretable machine learning techniques has garnered significant attention, offering transparent and understandable insights crucial for informed clinical decision making. This literature review delves into the applications of interpretable machine learning in predicting the prognosis of respiratory diseases, particularly focusing on COVID-19 and its implications for future research and clinical practice. We reviewed various machine learning models that are not only capable of incorporating existing clinical domain knowledge but also have the learning capability to explore new information from the data. These models and experiences not only aid in managing the current crisis but also hold promise for addressing future disease outbreaks. By harnessing interpretable machine learning, healthcare systems can enhance their preparedness and response capabilities, thereby improving patient outcomes and mitigating the impact of respiratory diseases in the years to come. | 翻訳日:2024-09-04 21:52:48 公開日:2024-09-03 |
# 数学語問題におけるLLMのロバスト性の検討
Investigating the Robustness of LLMs on Math Word Problems ( http://arxiv.org/abs/2406.15444v2 ) ライセンス: Link先を確認 | Ujjwala Anantheswaran, Himanshu Gupta, Kevin Scaria, Shreyas Verma, Chitta Baral, Swaroop Mishra, | (参考訳) 大規模言語モデル(LLMs)は、数学用語問題(MWPs)の解決など、様々なタスクに優れるが、無関係な情報を含む現実世界の問題に苦慮する。
そこで本稿では,無関係な変数を追加することにより,MWPの逆変量を生成するプロンプトフレームワークを提案する。
本稿では,対戦型MWPと非対戦型MWPの両方を含むデータセットProbleMATHICを紹介する。
実験の結果,LLMは数値ノイズによる乱れの影響を受けやすいことが明らかとなり,対向MWPでは平均26%の相対的な性能低下がみられた。
これを軽減するために、データセットの対向サンプルにLLM(Llama-2, Mistral)を微調整する。
敵のトレーニングインスタンスの微調整により、敵のMWPのパフォーマンスが約8%向上し、ノイズに対する堅牢性が向上し、推論のための関連データを識別する能力が向上した。
最後に、我々のプロンプトフレームワークの一般化性を評価するため、GSM-8Kベンチマークの逆変種であるGSM-8K-Advを紹介する。
LLMは敵対的な情報に直面すると苦労し続け、パフォーマンスは最大6%低下した。
Large Language Models (LLMs) excel at various tasks, including solving math word problems (MWPs), but struggle with real-world problems containing irrelevant information. To address this, we propose a prompting framework that generates adversarial variants of MWPs by adding irrelevant variables. We introduce a dataset, ProbleMATHIC, containing both adversarial and non-adversarial MWPs. Our experiments reveal that LLMs are susceptible to distraction by numerical noise, resulting in an average relative performance drop of ~26% on adversarial MWPs. To mitigate this, we fine-tune LLMs (Llama-2, Mistral) on the adversarial samples from our dataset. Fine-tuning on adversarial training instances improves performance on adversarial MWPs by ~8%, indicating increased robustness to noise and better ability to identify relevant data for reasoning. Finally, to assess the generalizability of our prompting framework, we introduce GSM-8K-Adv, an adversarial variant of the GSM-8K benchmark. LLMs continue to struggle when faced with adversarial information, reducing performance by up to ~6%. | 翻訳日:2024-09-04 21:52:48 公開日:2024-09-03 |
# 計画とレンダリング:拡散モデルによる製品ポスター生成を目指して
Planning and Rendering: Towards Product Poster Generation with Diffusion Models ( http://arxiv.org/abs/2312.08822v2 ) ライセンス: Link先を確認 | Zhaochen Li, Fengheng Li, Wei Feng, Honghe Zhu, Yaoyu Li, Zheng Zhang, Jingjing Lv, Junjie Shen, Zhangang Lin, Jingping Shao, Zhenglu Yang, | (参考訳) 製品ポスター生成は設計効率を大幅に最適化し、生産コストを削減します。
一般的な手法は, 製品に対してクリーンな背景画像を生成するために, 画像塗布法に大きく依存する。
その後、ポスターレイアウト生成法を用いて、対応するレイアウト結果を生成する。
しかし、背景画像は、その複雑さのため、テキストコンテンツを収容するのに適さない可能性があり、製品の固定された位置は、レイアウト結果の多様性を制限する。
これらの問題を緩和するために,P\&R という拡散モデルに基づく新しい製品ポスター生成フレームワークを提案する。
P\&Rは、デザイナーがポスターを作成する際のワークフローからインスピレーションを得ている。
計画段階では,製品の外観特徴とテキストの意味的特徴の両方を考慮することで,レイアウトの多様性と合理性を向上するPlanNetを提案する。
レンダリングの段階では,異なるビジュアルコンポーネントのレイアウトを融合させる空間融合モジュールが導入された場合において,生成したレイアウトを考慮しながら製品の背景を生成するRenderNetを提案する。
この分野の進展を促進するために,30kの精巧な製品ポスターイメージと包括的な画像とテキストアノテーションからなる,最初の製品ポスター生成データセット PPG30k を提案する。
提案手法は, PPG30k上での最先端の製品ポスター生成手法よりも優れていた。
PPG30kはまもなくリリースされる予定だ。
Product poster generation significantly optimizes design efficiency and reduces production costs. Prevailing methods predominantly rely on image-inpainting methods to generate clean background images for given products. Subsequently, poster layout generation methods are employed to produce corresponding layout results. However, the background images may not be suitable for accommodating textual content due to their complexity, and the fixed location of products limits the diversity of layout results. To alleviate these issues, we propose a novel product poster generation framework based on diffusion models named P\&R. The P\&R draws inspiration from the workflow of designers in creating posters, which consists of two stages: Planning and Rendering. At the planning stage, we propose a PlanNet to generate the layout of the product and other visual components considering both the appearance features of the product and semantic features of the text, which improves the diversity and rationality of the layouts. At the rendering stage, we propose a RenderNet to generate the background for the product while considering the generated layout, where a spatial fusion module is introduced to fuse the layout of different visual components. To foster the advancement of this field, we propose the first product poster generation dataset PPG30k, comprising 30k exquisite product poster images along with comprehensive image and text annotations. Our method outperforms the state-of-the-art product poster generation methods on PPG30k. The PPG30k will be released soon. | 翻訳日:2024-09-04 21:42:39 公開日:2024-09-03 |
# 量子位相推定アルゴリズムを用いた実用的な量子化学計算のためのワークフロー:ベンゼン及びその誘導体の電子場とπ-π*励起状態
Workflow for practical quantum chemical calculations with quantum phase estimation algorithm: electronic ground and π-π* excited states of benzene and its derivatives† ( http://arxiv.org/abs/2312.16375v2 ) ライセンス: Link先を確認 | Yusuke Ino, Misaki Yonekawa, Hideto Yuzawa, Yuichiro Minato, Kenji Sugisaki, | (参考訳) 量子位相推定(QPE)アルゴリズムを用いることにより、量子コンピュータは従来の計算資源よりも少ない完全構成の相互作用計算を実行することが期待されている。
しかし、古典的コンピュータ上での数値シミュレーションにおいても、QPEに基づく量子化学計算の限られた数しか報告されておらず、QPE計算の実践的なワークフローはまだ確立されていない。
本稿では,電子場とベンゼンの励起一重項状態とクロロおよびニトロ誘導体のQPEシミュレーションを,量子回路シミュレーションのGPGPU加速の助けを借りて,産業的に重要なシステムとして報告する。
我々は,MP2計算から得られた擬似自然軌道を,波動関数展開の基礎として,励起状態の入力波動関数に含まれる主電子配置を見つけるためのアクティブ空間内のCISD計算,計算された総エネルギーのトランケーション誤差を低減する手法として採用した。
提案した計算ワークフローは、他の分子にも容易に適用でき、実用分子のQPEに基づく量子化学計算を行うための標準的なアプローチである。
Quantum computers are expected to perform the full-configuration interaction calculations with less computational resources compared to classical ones, thanks to the use of the quantum phase estimation (QPE) algorithms. However, only a limited number of the QPE-based quantum chemical calculations have been reported even for numerical simulations on a classical computer, and the practical workflow for the QPE computation has not yet been established. In this paper, we report the QPE simulations of the electronic ground and the {\pi}-{\pi}* excited singlet state of benzene and its chloro- and nitroderivatives as the representative industrially important systems, with the aid of GPGPU acceleration of quantum circuit simulations. We adopted the pseudo-natural orbitals obtained from the MP2 calculation as the basis for the wave function expansion, the CISD calculation within the active space to find the main electronic configurations to be included in the input wave function of the excited state, and the technique to reduce the truncation error the calculated total energies. The proposed computational workflow is easily applicable to other molecules and can be a standard approach for performing the QPE-based quantum chemical calculations of practical molecules. | 翻訳日:2024-09-04 21:42:39 公開日:2024-09-03 |
# 離散的および連続的多部絡み合いに対するエントロピー測度のポリゴン関係と部分付加性
The polygon relation and subadditivity of entropic measures for discrete and continuous multipartite entanglement ( http://arxiv.org/abs/2401.02066v2 ) ライセンス: Link先を確認 | Lijun Liu, Xiaozhen Ge, Shuming Cheng, | (参考訳) 最近の『Ge {\it et al』では、arXiv: 2312。
17496 (2023)] では, 離散的, 連続的, さらにはハイブリッド多部量子系の絡み合い特性を明らかにするのに有用な両部共役エンタングルメントのポリゴン関係を導出した。
本研究では、R'enyi と Tsallis のエントロピーの情報-理論的尺度を用いて、ポリゴン関係とエントロピーの副付加性との関係について検討する。
特に、エントロピー-ポリゴン関係は純粋に多ビット状態に対して導出され、量子境界問題の既知の結果を利用して多モードガウス状態に一般化される。
さらに、すべての離散的あるいは連続的な多部状態に対して、ポリゴン関係が、基礎となるエントロピーが部分加法的である場合に限り成り立つという意味で、ポリゴン関係と部分加法の間の同値性を確立する。
副生成物として、R\'enyi と Tsallis エントロピーの副付加性は全ての二部類ガウス状態に対して証明される。
最後に,ポリゴン関係とモノガミー関係の違いを明らかにし,その結果の一般化について論じる。
我々の研究は多粒子状態の豊富な構造をよりよく理解し、それゆえに多粒子絡みの研究に役立つと期待されている。
In a recent work [Ge {\it et al.}, arXiv: 2312. 17496 (2023)], we have derived the polygon relation of bipartite entanglement measures that is useful to reveal the entanglement properties of discrete, continuous, and even hybrid multipartite quantum systems. In this work, with the information-theoretical measures of R\'enyi and Tsallis entropies, we study the relationship between the polygon relation and the subadditivity of entropy. In particular, the entropy-polygon relations are derived for pure multi-qubit states and generalized to multi-mode Gaussian states, by utilizing the known results from the quantum marginal problem. Moreover, the equivalence between the polygon relation and subadditivity is established, in the sense that for all discrete or continuous multipartite states, the polygon relation holds if and only if the underlying entropy is subadditive. As byproduct, the subadditivity of R\'enyi and Tsallis entropies is proven for all bipartite Gaussian states. Finally, the difference between polygon relations and monogamy relations is clarified, and generalizations of our results are discussed. Our work provides a better understanding of the rich structure of multipartite states, and hence is expected to be helpful for the study of multipartite entanglement. | 翻訳日:2024-09-04 21:42:39 公開日:2024-09-03 |
# 配向バウンディングボックス型セグメンテーションモデルを用いた効率的なインスタンス分割フレームワーク
An Efficient Instance Segmentation Framework Using Segmentation Foundation Models with Oriented Bounding Box Prompts ( http://arxiv.org/abs/2401.08174v4 ) ライセンス: Link先を確認 | Zhen Zhou, Junfeng Fan, Yunkai Ma, Sihan Zhao, Fengshui Jing, Min Tan, | (参考訳) 無人航空機計測におけるケースセグメンテーションは長年の課題である。
水平バウンディングボックスは多くの干渉オブジェクトを導入しているため、通常、向き付けられたバウンディングボックス(OBB)がインスタンス識別に使用される。
しかし、''境界ボックス内でのセグメンテーション'のパラダイムに基づいて、OBBを使った現在のインスタンスセグメンテーションメソッドは、境界ボックス検出性能に過度に依存している。
そこで本研究では,OBBを用いた効率的なインスタンスセグメンテーションフレームワークOBSegを提案する。
OBSegはボックスプロンプトベースのセグメンテーション基盤モデル(BSM)に基づいている。
具体的には、OBSegが最初にOBBを検出し、インスタンスを識別し、粗いローカライゼーション情報を提供する。
次に,OBBプロンプト関連マスクの微細セグメンテーションを予測した。
OBBはプロンプトとしてのみ機能するため、OBSegはOBBを用いた現在のインスタンスセグメンテーションメソッドのバウンディングボックス検出性能の過依存性を軽減する。
さらに,BSM が OBB プロンプトを扱えるようにするために,新しい OBB プロンプトエンコーダを提案する。
OBSegをより軽量化し, 軽量蒸留BSMの性能を向上させるため, ガウス平滑化に基づく知識蒸留法が導入された。
OBSegは、複数のパブリックデータセット上の現在のインスタンスセグメンテーションメソッドより優れていることを示す実験である。
コードはhttps://github.com/zhen6618/OBBInstanceSegmentationで入手できる。
Instance segmentation in unmanned aerial vehicle measurement is a long-standing challenge. Since horizontal bounding boxes introduce many interference objects, oriented bounding boxes (OBBs) are usually used for instance identification. However, based on ``segmentation within bounding box'' paradigm, current instance segmentation methods using OBBs are overly dependent on bounding box detection performance. To tackle this, this paper proposes OBSeg, an efficient instance segmentation framework using OBBs. OBSeg is based on box prompt-based segmentation foundation models (BSMs), e.g., Segment Anything Model. Specifically, OBSeg first detects OBBs to distinguish instances and provide coarse localization information. Then, it predicts OBB prompt-related masks for fine segmentation. Since OBBs only serve as prompts, OBSeg alleviates the over-dependence on bounding box detection performance of current instance segmentation methods using OBBs. In addition, to enable BSMs to handle OBB prompts, we propose a novel OBB prompt encoder. To make OBSeg more lightweight and further improve the performance of lightweight distilled BSMs, a Gaussian smoothing-based knowledge distillation method is introduced. Experiments demonstrate that OBSeg outperforms current instance segmentation methods on multiple public datasets. The code is available at https://github.com/zhen6618/OBBInstanceSegmentation. | 翻訳日:2024-09-04 21:31:42 公開日:2024-09-03 |
# コンピュータビジョンによる高齢者の行動認識と転倒検出のための深層学習 : システムレビュー
Deep Learning for Computer Vision based Activity Recognition and Fall Detection of the Elderly: a Systematic Review ( http://arxiv.org/abs/2401.11790v3 ) ライセンス: Link先を確認 | F. Xavier Gaya-Morey, Cristina Manresa-Yee, Jose M. Buades-Rubio, | (参考訳) 先進国の高齢者の割合が世界中で増加するにつれて、この集団の医療は特に自治の維持を含むと懸念される問題となっている。
この方向では、高齢者の自立生活による偏見を軽減するために、AAL(Ambient Assisted Living)システムに関する多くの研究が出版されている。
本研究では,高齢者の転倒検知とHAR(Human Activity Recognition)について,高齢者の安全を確保するための2つの主要な課題として,文献の体系的レビューを行った。
この2つの課題を遂行する現在の傾向に対処するため,コンピュータビジョンデータに対するディープラーニング(DL)に基づくアプローチの活用に焦点をあてた。
さらに、DLモデル、データセット、ハードウェア(例えば深度やサーマルカメラ)などのさまざまなデータコレクションがレビューされた研究から収集され、将来の研究に参考として提供される。
既存のアプローチの強みと弱みについても論じ、それに基づいて今後の研究への推奨事項について述べる。
As the percentage of elderly people in developed countries increases worldwide, the healthcare of this collective is a worrying matter, especially if it includes the preservation of their autonomy. In this direction, many studies are being published on Ambient Assisted Living (AAL) systems, which help to reduce the preoccupations raised by the independent living of the elderly. In this study, a systematic review of the literature is presented on fall detection and Human Activity Recognition (HAR) for the elderly, as the two main tasks to solve to guarantee the safety of elderly people living alone. To address the current tendency to perform these two tasks, the review focuses on the use of Deep Learning (DL) based approaches on computer vision data. In addition, different collections of data like DL models, datasets or hardware (e.g. depth or thermal cameras) are gathered from the reviewed studies and provided for reference in future studies. Strengths and weaknesses of existing approaches are also discussed and, based on them, our recommendations for future works are provided. | 翻訳日:2024-09-04 21:31:42 公開日:2024-09-03 |
# 自動表情認識の人間的類似性を明らかにする:説明可能なAIによる経験的探索
Unveiling the Human-like Similarities of Automatic Facial Expression Recognition: An Empirical Exploration through Explainable AI ( http://arxiv.org/abs/2401.11835v3 ) ライセンス: Link先を確認 | F. Xavier Gaya-Morey, Silvia Ramis-Guarinos, Cristina Manresa-Yee, Jose M. Buades-Rubio, | (参考訳) 顔の表情認識は人間の行動分析に不可欠であり、深層学習は人間よりも優れたモデルを可能にした。
しかし、それがいかに人間の処理を模倣しているかは明らかではない。
本研究の目的は、汎用オブジェクト分類器とFER特化モデルの両方を含む12の異なるネットワークを比較し、ディープニューラルネットワークと人間の知覚の類似性を検討することである。
我々は、革新的なグローバルな説明可能なAI手法を用いて、熱マップを生成し、6つの表情で訓練された12のネットワークにとって重要な顔領域を明らかにする。
Friesen と Ekman の記述およびそれらの中から,これらの結果を地上の真理マスクと比較し,定量的かつ質的に評価する。
We use Intersection over Union (IoU) and normalized correlation coefficients for comparisons。
72個のヒートマップを生成し、各表現とアーキテクチャの重要な領域をハイライトします。
定性的に、事前トレーニングされた重量を持つモデルは、事前トレーニングされていないモデルと比較して、ヒートマップにおいてより類似性を示す。
特に、目と鼻の領域は特定の表情に影響を与えるが、口はすべてのモデルと表情で一貫して重要である。
定量的には、すべての表現とアーキテクチャで平均IoU値が低い(0.2702)。
最高のパフォーマンスのアーキテクチャは0.3269、最悪のパフォーマンスのアーキテクチャは0.2066である。
正規化相関係数で構築されたデンドログラムは、ほとんどの表現に対して2つの主要なクラスタを明らかにする。
類似のアーキテクチャが類似の顔領域を優先しているため、ネットワークアーキテクチャが類似性に影響を与える。
Facial expression recognition is vital for human behavior analysis, and deep learning has enabled models that can outperform humans. However, it is unclear how closely they mimic human processing. This study aims to explore the similarity between deep neural networks and human perception by comparing twelve different networks, including both general object classifiers and FER-specific models. We employ an innovative global explainable AI method to generate heatmaps, revealing crucial facial regions for the twelve networks trained on six facial expressions. We assess these results both quantitatively and qualitatively, comparing them to ground truth masks based on Friesen and Ekman's description and among them. We use Intersection over Union (IoU) and normalized correlation coefficients for comparisons. We generate 72 heatmaps to highlight critical regions for each expression and architecture. Qualitatively, models with pre-trained weights show more similarity in heatmaps compared to those without pre-training. Specifically, eye and nose areas influence certain facial expressions, while the mouth is consistently important across all models and expressions. Quantitatively, we find low average IoU values (avg. 0.2702) across all expressions and architectures. The best-performing architecture averages 0.3269, while the worst-performing one averages 0.2066. Dendrograms, built with the normalized correlation coefficient, reveal two main clusters for most expressions: models with pre-training and models without pre-training. Findings suggest limited alignment between human and AI facial expression recognition, with network architectures influencing the similarity, as similar architectures prioritize similar facial regions. | 翻訳日:2024-09-04 21:31:42 公開日:2024-09-03 |
# 相関埋め込み型トランスフォーマートラッキング:シングルブランチフレームワーク
Correlation-Embedded Transformer Tracking: A Single-Branch Framework ( http://arxiv.org/abs/2401.12743v2 ) ライセンス: Link先を確認 | Fei Xie, Wankou Yang, Chunyu Wang, Lei Chu, Yue Cao, Chao Ma, Wenjun Zeng, | (参考訳) 堅牢で差別的な外観モデルを開発することは、視覚オブジェクト追跡における長年の研究課題である。
シームズ・ベースのパラダイムでは、シームズ・ネットワークによって抽出された特徴は、追跡対象や妨害対象をモデル化するには不十分であり、それによってそれらが堅牢で差別的であることを妨げている。
多くのシームズトラッカーはロバストな相関演算の設計に重点を置いているが、この変換器にインスパイアされた新しい単一ブランチ追跡フレームワークを提案する。
Siameseのような特徴抽出とは異なり、トラッカーは機能ネットワークの複数の層にクロスイメージ特徴相関を深く埋め込む。
複数の層を通して2つの画像の特徴を広範囲にマッチングすることにより、ターゲットでない特徴を抑えることができ、その結果、ターゲットを意識した特徴抽出が実現される。
出力機能は、追加の相関ステップなしでターゲット位置を予測するために直接使用することができる。
そこで我々は、SBTと呼ばれる概念的にシンプルで完全なトランスフォーマーベースのシングルブランチ追跡パイプラインとして、2分岐のシームズ追跡を再構成する。
SBTベースラインの詳細な解析を行い、多くの効率的な設計原則を要約し、SuperSBTと呼ばれる改良されたトラッカーを提案する。
SuperSBTは、浅層機能を強化するために、局所モデリング層を備えた階層アーキテクチャを採用する。
複雑な手作りのパターンパターンを除去する統合関係モデルを提案する。
SuperSBTはさらに、マスク付き画像モデリング事前トレーニング、時間モデリングの統合、専用の予測ヘッドの装備により改善されている。
これにより、SuperSBTはSBTベースラインの4.7%、3.0%、AUCスコアの4.5%をLaSOT、TrackingNet、GOT-10Kで上回っている。
特にSuperSBTは、SBTの速度を37FPSから81FPSに大幅に向上させる。
大規模な実験により,本手法は8つのVOTベンチマークにおいて優れた結果が得られることが示された。
Developing robust and discriminative appearance models has been a long-standing research challenge in visual object tracking. In the prevalent Siamese-based paradigm, the features extracted by the Siamese-like networks are often insufficient to model the tracked targets and distractor objects, thereby hindering them from being robust and discriminative simultaneously. While most Siamese trackers focus on designing robust correlation operations, we propose a novel single-branch tracking framework inspired by the transformer. Unlike the Siamese-like feature extraction, our tracker deeply embeds cross-image feature correlation in multiple layers of the feature network. By extensively matching the features of the two images through multiple layers, it can suppress non-target features, resulting in target-aware feature extraction. The output features can be directly used for predicting target locations without additional correlation steps. Thus, we reformulate the two-branch Siamese tracking as a conceptually simple, fully transformer-based Single-Branch Tracking pipeline, dubbed SBT. After conducting an in-depth analysis of the SBT baseline, we summarize many effective design principles and propose an improved tracker dubbed SuperSBT. SuperSBT adopts a hierarchical architecture with a local modeling layer to enhance shallow-level features. A unified relation modeling is proposed to remove complex handcrafted layer pattern designs. SuperSBT is further improved by masked image modeling pre-training, integrating temporal modeling, and equipping with dedicated prediction heads. Thus, SuperSBT outperforms the SBT baseline by 4.7%,3.0%, and 4.5% AUC scores in LaSOT, TrackingNet, and GOT-10K. Notably, SuperSBT greatly raises the speed of SBT from 37 FPS to 81 FPS. Extensive experiments show that our method achieves superior results on eight VOT benchmarks. | 翻訳日:2024-09-04 21:31:42 公開日:2024-09-03 |
# 時間グラフの埋め込みに基づく距離
An embedding-based distance for temporal graphs ( http://arxiv.org/abs/2401.12843v2 ) ライセンス: Link先を確認 | Lorenzo Dall'Amico, Alain Barrat, Ciro Cattuto, | (参考訳) 時間グラフは、多くの自然系と人工系の実体間の時間分解関係を表すために一般的に用いられる。
異なる時点における状態を比較することによって、時間グラフの進化を研究するために、多くの技術が考案された。
しかし、時間グラフ全体の類似性を定量化することは、オープンな問題である。
ここでは、時間参照ランダムウォークに基づく埋め込みを用いて、時間グラフ間の距離の新しい概念を導入する。
この距離は、異なるノード数と異なる時間間隔を持つ時間グラフのペアに対してよく定義されている。
一致したグラフのペアの場合,ノード間の既知の関係が存在する場合,マッチングされていないグラフの場合,そのような関係が利用できない場合,グラフのサイズが異なる場合などについて検討する。
実験的, 合成的時間ネットワークデータを用いて, 位相的, 時間的特性の異なるグラフを識別することを示す。
大規模時間グラフに適した距離計算の効率的な実装を提案する。
Temporal graphs are commonly used to represent time-resolved relations between entities in many natural and artificial systems. Many techniques were devised to investigate the evolution of temporal graphs by comparing their state at different time points. However, quantifying the similarity between temporal graphs as a whole is an open problem. Here, we use embeddings based on time-respecting random walks to introduce a new notion of distance between temporal graphs. This distance is well-defined for pairs of temporal graphs with different numbers of nodes and different time spans. We study the case of a matched pair of graphs, when a known relation exists between their nodes, and the case of unmatched graphs, when such a relation is unavailable and the graphs may be of different sizes. We use empirical and synthetic temporal network data to show that the distance we introduce discriminates graphs with different topological and temporal properties. We provide an efficient implementation of the distance computation suitable for large-scale temporal graphs. | 翻訳日:2024-09-04 21:31:42 公開日:2024-09-03 |
# 量子力学における確率について
On probabilities in quantum mechanics ( http://arxiv.org/abs/2401.17717v6 ) ライセンス: Link先を確認 | Inge S. Helland, | (参考訳) これは、量子力学の解釈に関する議論、一方のアンドレイ・クレンニコフと他方のブレイク・ステーシーとR\"ディガー・シャックの間での議論に関連するある概念を明確にしようとする試みである。
この議論の中心は量子確率の概念である。
私はまずQBist派で確率の概念を取り上げ、量子確率を計算するためのBorn公式について独自の議論をします。
その関係において、量子論の基礎と解釈への私のアプローチのいくつかの結果もスケッチします。
最終的な発言をする前に、QB主義に関する一般的な見解を代替解釈の可能性として論じます。
This is an attempt to clarify certain concepts related to a debate on the interpretation of quantum mechanics, a debate between Andrei Khrennikov on the one side and Blake Stacey and R\"udiger Schack on the other side. Central to this debate is the notion of quantum probabilities. I first take up the probability concept in the QBist school, and then give my own arguments for the Born formula for calculating quantum probabilities. In that connection I also sketch some consequences of my approach towards the foundation and interpretation of quantum theory. I discuss my general views on QBism as a possible alternative interpretation before I give some final remarks. | 翻訳日:2024-09-04 19:43:36 公開日:2024-09-03 |
# 動的ハルトを用いたリカレント変圧器の検討
Investigating Recurrent Transformers with Dynamic Halt ( http://arxiv.org/abs/2402.00976v3 ) ライセンス: Link先を確認 | Jishnu Ray Chowdhury, Cornelia Caragea, | (参考訳) 本稿では,(1)ユニバーサルトランスフォーマーに類似した深度ワイド・リカレンスを組み込むアプローチ,(2)テンポラル・ラテント・ボトルネックのようなチャンクワイド・テンポラル・リカレンスを組み込むアプローチ,の2つの主要なリカレント・メカニズムによるインダクティブ・バイアスを包括的に研究する。
さらに, 上記の手法を拡張し, 組み合わせる新しい手法を提案する。例えば, ユニバーサルトランスフォーマーのグローバル平均値に基づく動的停止機構と, テンポラルラテントボトルネックをユニバーサルトランスフォーマーの要素で拡張する機構を提案する。
モデルを比較し,Long Range Arena(LRA)やフリップフロップ言語モデリング,ListOps,Logical Inferenceなど,いくつかの診断タスクにおける帰納バイアスを探索する。
https://github.com/JRC 1995/InvestigatingRecurrentTransformers/tree/main
In this paper, we comprehensively study the inductive biases of two major approaches to augmenting Transformers with a recurrent mechanism: (1) the approach of incorporating a depth-wise recurrence similar to Universal Transformers; and (2) the approach of incorporating a chunk-wise temporal recurrence like Temporal Latent Bottleneck. Furthermore, we propose and investigate novel ways to extend and combine the above methods - for example, we propose a global mean-based dynamic halting mechanism for Universal Transformers and an augmentation of Temporal Latent Bottleneck with elements from Universal Transformer. We compare the models and probe their inductive biases in several diagnostic tasks, such as Long Range Arena (LRA), flip-flop language modeling, ListOps, and Logical Inference. The code is released in: https://github.com/JRC1995/InvestigatingRecurrentTransformers/tree/main | 翻訳日:2024-09-04 19:43:36 公開日:2024-09-03 |
# KTO:将来の理論最適化としてのモデルアライメント
KTO: Model Alignment as Prospect Theoretic Optimization ( http://arxiv.org/abs/2402.01306v3 ) ライセンス: Link先を確認 | Kawin Ethayarajh, Winnie Xu, Niklas Muennighoff, Dan Jurafsky, Douwe Kiela, | (参考訳) Kahneman & Tversky の $\textit{prospect theory}$ は、人間が偏見はあるが明確に定義された方法でランダム変数を知覚していることを教えてくれる(1992年)。
クロスエントロピー最小化に対するこれらの目的(例えば、DPO)の成功は、私たちが$\textit{human-aware loss}$ (HALOs)と呼ぶ損失関数のファミリーに属するものの一部である。
しかし、これらの方法が人間に帰属する実用的機能は、先見理論の文献とまだ異なっている。
人間のユーティリティのKahneman-Tverskyモデルを用いて、現在の方法のように、好みのログを最大化するのではなく、世代ごとのユーティリティを直接最大化するHALOを提案する。
我々はこの手法をKTOと呼び、出力が望ましいかどうかのバイナリ信号からのみ学習するにもかかわらず、1Bから30Bのスケールでの好みに基づく手法の性能を一致または超過する。
より広範に、我々の研究は、普遍的に優れているHALOは存在しないことを示唆している。
Kahneman & Tversky's $\textit{prospect theory}$ tells us that humans perceive random variables in a biased but well-defined manner (1992); for example, humans are famously loss-averse. We show that objectives for aligning LLMs with human feedback implicitly incorporate many of these biases -- the success of these objectives (e.g., DPO) over cross-entropy minimization can partly be ascribed to them belonging to a family of loss functions that we call $\textit{human-aware losses}$ (HALOs). However, the utility functions these methods attribute to humans still differ from those in the prospect theory literature. Using a Kahneman-Tversky model of human utility, we propose a HALO that directly maximizes the utility of generations instead of maximizing the log-likelihood of preferences, as current methods do. We call this approach KTO, and it matches or exceeds the performance of preference-based methods at scales from 1B to 30B, despite only learning from a binary signal of whether an output is desirable. More broadly, our work suggests that there is no one HALO that is universally superior; the best loss depends on the inductive biases most appropriate for a given setting, an oft-overlooked consideration. | 翻訳日:2024-09-04 19:43:36 公開日:2024-09-03 |
# サイバーセキュリティの基本課題と脆弱性誘導硬化の哲学
Fundamental Challenges in Cybersecurity and a Philosophy of Vulnerability-Guided Hardening ( http://arxiv.org/abs/2402.01944v5 ) ライセンス: Link先を確認 | Marcel Böhme, | (参考訳) サイバーセキュリティの研究は、反応性、特異性、短命性、そして実際は効果がないように思われる。
何十年もの間、防衛の革新にもかかわらず、もっとも重要なソフトウェアシステムでさえ、攻撃に弱いことが判明した。
何度も。
攻撃と防御は永遠に繰り返す。
証明可能なセキュリティでさえ、攻撃者がセキュリティ上の欠陥を見つけるのを止めることはできない。
私たちの成果を反映して、私たちは疑問を抱いている。 セキュリティは、すべてにおいて、一度に解決できるのだろうか?
本稿では、哲学的な観点から、ソフトウェアシステムのセキュリティに関する信頼性のある言明を正確にかつ基礎的に防ぐためのサイバーセキュリティの第一理論を策定する。
セキュリティ欠陥の欠如に関する確実な保証にもかかわらず、対応する課題がシステムを攻撃するために日常的にどのように利用されるかを示すことで、各議論を裏付ける。
これらの課題の存在下で有意義な進展を図るために,サイバーセキュリティの哲学を導入する。
Research in cybersecurity may seem reactive, specific, ephemeral, and indeed ineffective. Despite decades of innovation in defense, even the most critical software systems turn out to be vulnerable to attacks. Time and again. Offense and defense forever on repeat. Even provable security, meant to provide an indubitable guarantee of security, does not stop attackers from finding security flaws. As we reflect on our achievements, we are left wondering: Can security be solved once and for all? In this paper, we take a philosophical perspective and develop the first theory of cybersecurity that explains what precisely and *fundamentally* prevents us from making reliable statements about the security of a software system. We substantiate each argument by demonstrating how the corresponding challenge is routinely exploited to attack a system despite credible assurances about the absence of security flaws. To make meaningful progress in the presence of these challenges, we introduce a philosophy of cybersecurity. | 翻訳日:2024-09-04 19:43:36 公開日:2024-09-03 |
# 顔認識:デプロイするか否か? : 実世界のシナリオにおける顔認識システムの利用状況を評価するフレームワーク
Face Recognition: to Deploy or not to Deploy? A Framework for Assessing the Proportional Use of Face Recognition Systems in Real-World Scenarios ( http://arxiv.org/abs/2402.05731v2 ) ライセンス: Link先を確認 | Pablo Negri, Isabelle Hupont, Emilia Gomez, | (参考訳) 顔認識(FR)は高い技術水準に達した。
しかし、倫理的観点から、特にセンシティブなシナリオにおいて、その使用を慎重に評価する必要がある。
これはまさにこの論文の焦点である: 公共空間、スポーツスタジアム、駅など) 密集した空間において、特定の被写体を特定するためのFRの使用と法執行のシナリオである。
特に、市民のプライバシーと基本的権利の保護と安全性のトレードオフを検討する必要がある。
最近の人工知能(AI)政策、特に欧州AI法(英語版)は、これらのFR介入は厳密に必要な場合にのみ比例して展開されるべきであるとしている。
それにもかかわらず、比例FR介入の概念にどう対処するかに関する具体的なガイドラインは、現在までに欠落している。
本稿では、上記のシナリオにおいて、FR介入が所定の使用状況に比例するか否かを評価するためのフレームワークを提案する。
また、FR介入決定に関連する主要な量的・質的変数(例えば、現場の人数、探索中の人物が繰り返し得る害のレベル、個人の権利と自由への帰結)を特定し、2Dグラフィカルモデルを提案し、これらの変数を倫理的コストとセキュリティ上の利益の両立を可能にする。
最後に、実際のデプロイメントにインスパイアされたさまざまなFRシナリオが提案されたモデルを検証する。
このフレームワークは、FRシステムのデプロイに直面する意思決定者のためのシンプルなサポートツールとして考えられている。
Face recognition (FR) has reached a high technical maturity. However, its use needs to be carefully assessed from an ethical perspective, especially in sensitive scenarios. This is precisely the focus of this paper: the use of FR for the identification of specific subjects in moderately to densely crowded spaces (e.g. public spaces, sports stadiums, train stations) and law enforcement scenarios. In particular, there is a need to consider the trade-off between the need to protect privacy and fundamental rights of citizens as well as their safety. Recent Artificial Intelligence (AI) policies, notably the European AI Act, propose that such FR interventions should be proportionate and deployed only when strictly necessary. Nevertheless, concrete guidelines on how to address the concept of proportional FR intervention are lacking to date. This paper proposes a framework to contribute to assessing whether an FR intervention is proportionate or not for a given context of use in the above mentioned scenarios. It also identifies the main quantitative and qualitative variables relevant to the FR intervention decision (e.g. number of people in the scene, level of harm that the person(s) in search could perpetrate, consequences to individual rights and freedoms) and propose a 2D graphical model making it possible to balance these variables in terms of ethical cost vs security gain. Finally, different FR scenarios inspired by real-world deployments validate the proposed model. The framework is conceived as a simple support tool for decision makers when confronted with the deployment of an FR system. | 翻訳日:2024-09-04 19:43:36 公開日:2024-09-03 |
# 省エネルギー型高速フォワードスケーリング
Energy-saving fast-forward scaling ( http://arxiv.org/abs/2402.10683v2 ) ライセンス: Link先を確認 | Takuya Hatomura, | (参考訳) 省エネ型高速フォワードスケーリングを提案する。
高速フォワードスケーリング(Fast-forward scaling)とは、ある測定基準で与えられたダイナミクスを高速化(あるいは減速)する手法である。
我々は, 高速フォワードスケーリングのエネルギーコストを導入し, 時間非依存測定基地における省エネ高速化の可能性を見出した。
具体例として、2レベル系におけるそのような省エネルギー高速フォワードスケーリングと、一般的なイジングスピンガラスの量子アニーリングを示す。
また、時間依存測定ベースの影響についても検討し、不要なエネルギーコストに対する対策について述べる。
この結果は、エネルギー効率のよい量子技術の実現の道を開くものである。
We propose energy-saving fast-forward scaling. Fast-forward scaling is a method which enables us to speed up (or slow down) given dynamics in a certain measurement basis. We introduce energy costs of fast-forward scaling, and find possibility of energy-saving speedup for time-independent measurement bases. As concrete examples, we show such energy-saving fast-forward scaling in a two-level system and quantum annealing of a general Ising spin glass. We also discuss the influence of a time-dependent measurement basis, and give a remedy for unwanted energy costs. The present results pave the way for realization of energy-efficient quantum technologies. | 翻訳日:2024-09-04 19:31:47 公開日:2024-09-03 |
# TimeSeriesBench: 時系列異常検出モデルのためのインダストリアルグレードベンチマーク
TimeSeriesBench: An Industrial-Grade Benchmark for Time Series Anomaly Detection Models ( http://arxiv.org/abs/2402.10802v3 ) ライセンス: Link先を確認 | Haotian Si, Jianhui Li, Changhua Pei, Hang Cui, Jingwen Yang, Yongqian Sun, Shenglin Zhang, Jingjing Li, Haiming Zhang, Jing Han, Dan Pei, Gaogang Xie, | (参考訳) 時系列異常検出(TSAD)は、現代のソフトウェアシステムの安定性を改善するための実世界の応用により、注目されている。
しかし、現実のデプロイメントの要件を満たすことができるかどうかを検証する効果的な方法はない。
第一に、現在のアルゴリズムは通常、時系列ごとに特定のモデルを訓練する。
このようなモデルを維持することは、数万の曲線を持つ大規模システムでは現実的ではない。
1つの統一モデルで異常を検知する性能は未だ不明である。
第二に、ほとんどのTSADモデルは時系列の歴史的部分で訓練され、将来のセグメントでテストされる。
しかし、分散システムでは、システムデプロイメントやアップグレードが頻繁に行われ、新しい、以前は目に見えない新しい時系列が毎日現れています。
現在のTSADアルゴリズムで新たに入ってくる未確認時系列をテストする性能は未だ不明である。
最後に、既存のベンチマークにおける評価指標の仮定は、実際的な要求には程遠い。
以上の問題を解決するために,産業用ベンチマークTimeSeriesBenchを提案する。
我々は、168以上の評価設定で既存のアルゴリズムの性能を評価し、将来的な異常検出アルゴリズムの設計を包括的に分析する。
TimeSeriesBenchとともに、産業データセットもリリースされている。
Time series anomaly detection (TSAD) has gained significant attention due to its real-world applications to improve the stability of modern software systems. However, there is no effective way to verify whether they can meet the requirements for real-world deployment. Firstly, current algorithms typically train a specific model for each time series. Maintaining such many models is impractical in a large-scale system with tens of thousands of curves. The performance of using merely one unified model to detect anomalies remains unknown. Secondly, most TSAD models are trained on the historical part of a time series and are tested on its future segment. In distributed systems, however, there are frequent system deployments and upgrades, with new, previously unseen time series emerging daily. The performance of testing newly incoming unseen time series on current TSAD algorithms remains unknown. Lastly, the assumptions of the evaluation metrics in existing benchmarks are far from practical demands. To solve the above-mentioned problems, we propose an industrial-grade benchmark TimeSeriesBench. We assess the performance of existing algorithms across more than 168 evaluation settings and provide comprehensive analysis for the future design of anomaly detection algorithms. An industrial dataset is also released along with TimeSeriesBench. | 翻訳日:2024-09-04 19:31:47 公開日:2024-09-03 |
# 絡み合い浄化プロトコルの統計的評価と最適化
Statistical evaluation and optimization of entanglement purification protocols ( http://arxiv.org/abs/2402.12287v2 ) ライセンス: Link先を確認 | Francesco Preti, József Zsolt Bernád, | (参考訳) 2量子エンタングル化プロトコルの定量評価法が提案されている。
提案手法は,全2量子状態の凸集合に適用した並列性とヒット・アンド・ランアルゴリズムに基づく。
先駆的プロトコルは、ほぼ均一にサンプリングされた密度行列の推定初期平均コンカレンスを改善することはできないが、知られているように、ベル状態に近い状態において、いまだに1組の量子ビットを生成する。
また、より効率的なプロトコルを開発し、より効率的な2ドルプロジェクタに基づく最近の提案とともに数値的に検討する。
さらに,連続パラメータを持つ変分浄化プロトコルのクラスを提案し,その出力精度を最適化する。
これらの最適化されたアルゴリズムは、多くの絡み合った状態を無駄にせず、従来の提案やプロトコルを超越していることが判明した。
Quantitative characterization of two-qubit entanglement purification protocols is introduced. Our approach is based on the concurrence and the hit-and-run algorithm applied to the convex set of all two-qubit states. We demonstrate that pioneering protocols are unable to improve the estimated initial average concurrence of almost uniformly sampled density matrices, however, as it is known, they still generate pairs of qubits in a state that is close to a Bell state. We also develop a more efficient protocol and investigate it numerically together with a recent proposal based on an entangling rank-$2$ projector. Furthermore, we present a class of variational purification protocols with continuous parameters and optimize their output concurrence. These optimized algorithms turn out to surpass former proposals and our protocol by means of not wasting too many entangled states. | 翻訳日:2024-09-04 19:31:47 公開日:2024-09-03 |
# 大規模学習におけるグラディエントDescentの収束性について
On the Convergence of Gradient Descent for Large Learning Rates ( http://arxiv.org/abs/2402.13108v2 ) ライセンス: Link先を確認 | Alexandru Crăciun, Debarghya Ghoshdastidar, | (参考訳) 収束に関する膨大な文献は、勾配降下と導出法が現在存在することを保証している。
しかし、単純な実践的な状況は未解明のままであり、固定されたステップサイズを使用する場合、任意の初期化から勾配降下が収束することを期待できるだろうか?
ステップサイズが大きすぎると初期化が成立しても収束は不可能となることを示す。
最適化軌道に沿った勾配ノルムの漸近値を見ると、ステップサイズが臨界値を超えたときに相転移が存在することが分かる。
この現象は実践者によって観測されているが、実際のメカニズムはヒューリスティックス以外には明らかではない。
力学系理論の結果を用いて、正方形損失を持つ線形ニューラルネットワークの場合、これを証明した。
また、勾配に対するリプシッツ連続性のような強い仮定を必要とせず、より一般的な損失に対する収束の不可能性も証明する。
非線形ネットワークを用いた実験により,本研究の妥当性を検証した。
A vast literature on convergence guarantees for gradient descent and derived methods exists at the moment. However, a simple practical situation remains unexplored: when a fixed step size is used, can we expect gradient descent to converge starting from any initialization? We provide fundamental impossibility results showing that convergence becomes impossible no matter the initialization if the step size gets too big. Looking at the asymptotic value of the gradient norm along the optimization trajectory, we see that there is a phase transition as the step size crosses a critical value. This has been observed by practitioners, yet the true mechanisms through which this happens remain unclear beyond heuristics. Using results from dynamical systems theory, we provide a proof of this in the case of linear neural networks with a squared loss. We also prove the impossibility of convergence for more general losses without requiring strong assumptions such as Lipschitz continuity for the gradient. We validate our findings through experiments with non-linear networks. | 翻訳日:2024-09-04 19:31:47 公開日:2024-09-03 |
# ダイナミックシーンにおける露光補正の学習
Learning Exposure Correction in Dynamic Scenes ( http://arxiv.org/abs/2402.17296v3 ) ライセンス: Link先を確認 | Jin Liu, Bo Wang, Chuanming Wang, Huiyuan Fu, Huadong Ma, | (参考訳) 露出補正は、不適切な露光に苦しむ視覚データを強化することを目的としており、良好な視覚効果を大幅に向上させることができる。
しかし、従来の手法は主に画像のモダリティに焦点を合わせており、ビデオは文献ではあまり研究されていない。
ビデオに先行画像に基づく手法を直接適用すると、時間的不整合が低画質で生じる。
徹底的な調査により,ベンチマークデータセットの欠如により,関連するコミュニティの開発が制限されることが判明した。
そこで,本稿では,露光不足と露光過多の両方を含む,世界初の実世界のペアビデオデータセットを構築した。
空間アライメントを実現するために,2台のデジタル一眼レフカメラとビームスプリッタを用いて不適切な露光映像と通常の露光映像を同時に撮影する。
さらに,両ストリームモジュールが露光不足と露光過多の両方に対処するように設計され,Retinex理論に基づく照度を向上するエンド・ツー・エンドの映像露出補正ネットワークを提案する。
各種測定値とユーザスタディに基づく広範囲な実験により,データセットの重要性と本手法の有効性が示された。
コードとデータセットはhttps://github.com/kravrolens/VECNetで公開されている。
Exposure correction aims to enhance visual data suffering from improper exposures, which can greatly improve satisfactory visual effects. However, previous methods mainly focus on the image modality, and the video counterpart is less explored in the literature. Directly applying prior image-based methods to videos results in temporal incoherence with low visual quality. Through thorough investigation, we find that the development of relevant communities is limited by the absence of a benchmark dataset. Therefore, in this paper, we construct the first real-world paired video dataset, including both underexposure and overexposure dynamic scenes. To achieve spatial alignment, we utilize two DSLR cameras and a beam splitter to simultaneously capture improper and normal exposure videos. Additionally, we propose an end-to-end video exposure correction network, in which a dual-stream module is designed to deal with both underexposure and overexposure factors, enhancing the illumination based on Retinex theory. The extensive experiments based on various metrics and user studies demonstrate the significance of our dataset and the effectiveness of our method. The code and dataset are available at https://github.com/kravrolens/VECNet. | 翻訳日:2024-09-04 19:31:47 公開日:2024-09-03 |
# 量子計測の読み出し効率がシステム絡みに及ぼす影響
Effect of the readout efficiency of quantum measurement on the system entanglement ( http://arxiv.org/abs/2402.19412v2 ) ライセンス: Link先を確認 | Christian Carisch, Oded Zilberberg, Alessandro Romito, | (参考訳) 監視された量子系は、系の状態に関する観測者の知識と相関する確率軌道に沿って進化する。
このような力学の下では、絡み合いのような特定の量子資源は観測者の知識の状態に依存するかもしれない。
ここでは、1d量子ランダムウォーク上の粒子の絡み合いを、混合状態絡み合い測定(構成コヒーレンス)を用いて非効率なモニタリングの下で定量化する。
測定による量子-古典的交叉におけるシステムの最大平均絡み合いは、測定強度と非効率性によって異なる方法で抑制される。
原則として、強い測定は絡み合いの量を無限に減少させる。
しかし、ある測定強度において、効率的な読み出しはシステムの絡み合いを著しく増加させ、量子コンピューティングを成功させるためには高忠実度検出器が不可欠である。
この結果は、ランダムウォークの量子シミュレーションプラットフォームから、測定誘起相転移に関する質問まで、幅広い分野に影響を及ぼす。
Monitored quantum systems evolve along stochastic trajectories correlated with the observer's knowledge of the system's state. Under such dynamics, certain quantum resources like entanglement may depend on the observer's state of knowledge. Here, we quantify the entanglement for a particle on a 1d quantum random walk under inefficient monitoring using a mixed state-entanglement measure - the configuration coherence. We find that the system's maximal mean entanglement at the measurement-induced quantum-to-classical crossover is suppressed in different ways by the measurement strength and inefficiency. In principle, strong measurements can lower the amount of entanglement indefinitely. However, at a given measurement strength, efficient readout can crucially increase the system entanglement, making high-fidelity detectors essential for successful quantum computing. Our results bear impact for a broad range of fields, ranging from quantum simulation platforms of random walks to questions related to measurement-induced phase transitions. | 翻訳日:2024-09-04 19:31:47 公開日:2024-09-03 |
# ビデオ異常検出のためのイベントプロンプトからの疑似異常の学習
Learn Suspected Anomalies from Event Prompts for Video Anomaly Detection ( http://arxiv.org/abs/2403.01169v2 ) ライセンス: Link先を確認 | Chenchen Tao, Xiaohao Peng, Chong Wang, Jiafei Wu, Puning Zhao, Jun Wang, Jiangbo Qian, | (参考訳) 弱教師付きビデオ異常検出(WS-VAD)のためのほとんどのモデルは、異常の種類を特定することなく、正常なスニペットと異常なスニペットを区別することを目的として、複数のインスタンス学習に依存している。
しかし、文脈間での異常定義の不明瞭な性質は、異常事象と正常事象の識別に不正確をもたらす可能性がある。
モデルが異常であることを示すため、イベントプロンプトから疑わしい異常の学習を導くための新しい枠組みが提案されている。
潜在的な異常事象と、異常ビデオから生成されたキャプションのテキスト・プロンプト辞書が与えられた場合、それら間の意味的異常類似性を計算し、ビデオスニペット毎に疑わしい事象を特定する。
これにより、新しいマルチプロンプト学習プロセスにより、すべてのビデオの視覚的セマンティックな特徴を制限し、また、擬似異常を自己学習のためにラベル付けする新しい方法を提供する。
その効果を示すために、XD-Violence、UCF-Crime、TAD、ShanghaiTechの4つのデータセットで包括的な実験と詳細なアブレーション研究を行った。
提案手法は,AP や AUC (86.5 %, \hl{90.4}\%, 94.4\%, 97.4\%) で最先端の手法よりも優れている。
さらに、オープンセットおよびクロスデータセットのケースで有望なパフォーマンスを示す。
データ、コード、モデルは以下の通りである。
Most models for weakly supervised video anomaly detection (WS-VAD) rely on multiple instance learning, aiming to distinguish normal and abnormal snippets without specifying the type of anomaly. However, the ambiguous nature of anomaly definitions across contexts may introduce inaccuracy in discriminating abnormal and normal events. To show the model what is anomalous, a novel framework is proposed to guide the learning of suspected anomalies from event prompts. Given a textual prompt dictionary of potential anomaly events and the captions generated from anomaly videos, the semantic anomaly similarity between them could be calculated to identify the suspected events for each video snippet. It enables a new multi-prompt learning process to constrain the visual-semantic features across all videos, as well as provides a new way to label pseudo anomalies for self-training. To demonstrate its effectiveness, comprehensive experiments and detailed ablation studies are conducted on four datasets, namely XD-Violence, UCF-Crime, TAD, and ShanghaiTech. Our proposed model outperforms most state-of-the-art methods in terms of AP or AUC (86.5\%, \hl{90.4}\%, 94.4\%, and 97.4\%). Furthermore, it shows promising performance in open-set and cross-dataset cases. The data, code, and models can be found at: \url{https://github.com/shiwoaz/lap}. | 翻訳日:2024-09-04 19:15:46 公開日:2024-09-03 |
# AIGCもAIを混乱させる:大規模視覚言語モデルにおける合成画像誘発幻覚の調査と説明
AIGCs Confuse AI Too: Investigating and Explaining Synthetic Image-induced Hallucinations in Large Vision-Language Models ( http://arxiv.org/abs/2403.08542v2 ) ライセンス: Link先を確認 | Yifei Gao, Jiaqi Wang, Zhiyu Lin, Jitao Sang, | (参考訳) 人工知能生成コンテンツ(AIGC)の進化は、より高い品質に向かって進んでいる。
AI生成コンテンツは、幅広いAIモデルにおいて重要な役割を担っているが、彼らが導入する潜在的な隠れたリスクは、十分に検討されていない。
人間指向の偽造検出以外にも、AI生成コンテンツは、もともと自然データを処理するように設計されたAIモデルに潜在的な問題を引き起こす。
本研究では,AI合成画像によるLVLM(Large Vision-Language Models)の高次幻覚現象について述べる。
合成画像によって誘導される物体幻覚は、より多く、より均一な位置分布によって特徴づけられるが、これらの合成画像でさえ、自然画像と比較して非現実的あるいは付加的な視覚的特徴を示さない。
さらに,Q-formerとLinearプロジェクタについて検討した結果,合成画像は視覚投射後のトークン偏差を呈し,幻覚バイアスを増幅することがわかった。
The evolution of Artificial Intelligence Generated Contents (AIGCs) is advancing towards higher quality. The growing interactions with AIGCs present a new challenge to the data-driven AI community: While AI-generated contents have played a crucial role in a wide range of AI models, the potential hidden risks they introduce have not been thoroughly examined. Beyond human-oriented forgery detection, AI-generated content poses potential issues for AI models originally designed to process natural data. In this study, we underscore the exacerbated hallucination phenomena in Large Vision-Language Models (LVLMs) caused by AI-synthetic images. Remarkably, our findings shed light on a consistent AIGC \textbf{hallucination bias}: the object hallucinations induced by synthetic images are characterized by a greater quantity and a more uniform position distribution, even these synthetic images do not manifest unrealistic or additional relevant visual features compared to natural images. Moreover, our investigations on Q-former and Linear projector reveal that synthetic images may present token deviations after visual projection, thereby amplifying the hallucination bias. | 翻訳日:2024-09-04 19:15:46 公開日:2024-09-03 |
# OC^4-ReID$:Occluded Cloth-Changing Person Redentification
$OC^4-ReID$: Occluded Cloth-Changing Person Re-Identification ( http://arxiv.org/abs/2403.08557v3 ) ライセンス: Link先を確認 | Zhihao Chen, Yiyuan Ge, Ziyang Wang, Jiaju Kang, Mingya Zhang, | (参考訳) CC-ReID(CC-Changing Person Re-identification)の研究は、通常、歩行者画像全体が見えるという前提の下で、衣服が変わったときに特定の歩行者を回収することに焦点を当てている。
しかし、現実のシナリオにおける歩行者画像は、しばしば障害物によって部分的に曖昧にされ、既存のCC-ReIDシステムにとって重要な課題である。
本稿では,服の着替えと隠蔽という2つの課題を同時に解決する,Occluded Cloth-Changing Person Re-Identification(OC^4-ReID$)という課題を紹介する。
具体的には,Occ-LTCCとOcc-PRCCという2つの新しいデータセットを構築する。
さらに、OC^4-ReID$にTrain-Test Micro Granularity Screening(T^2MGS$)モジュールを組み込むことで、閉塞の影響を緩和し、部分的特徴学習のためのPart-Robust Triplet(PRT)損失を提案する。
提案したデータセットおよび2つのCC-ReIDベンチマークデータセットに関する総合的な実験は、提案手法の他の最先端手法に対する優れた性能を示す。
コードとデータセットは、https://github.com/1024AILab/OC4-ReID.comで公開されている。
The study of Cloth-Changing Person Re-identification (CC-ReID) focuses on retrieving specific pedestrians when their clothing has changed, typically under the assumption that the entire pedestrian images are visible. Pedestrian images in real-world scenarios, however, are often partially obscured by obstacles, presenting a significant challenge to existing CC-ReID systems. In this paper, we introduce a more challenging task termed Occluded Cloth-Changing Person Re-Identification ($OC^4-ReID$), which simultaneously addresses two challenges of clothing changes and occlusion. Concretely, we construct two new datasets, Occ-LTCC and Occ-PRCC, based on original CC-ReID datasets to include random occlusions of key pedestrians components (e.g., head, torso). Moreover, a novel benchmark is proposed for $OC^4-ReID$ incorporating a Train-Test Micro Granularity Screening ($T^2MGS$) module to mitigate the influence of occlusion and proposing a Part-Robust Triplet (PRT) loss for partial features learning. Comprehensive experiments on the proposed datasets, as well as on two CC-ReID benchmark datasets demonstrate the superior performance of proposed method against other state-of-the-art methods. The codes and datasets are available at: https://github.com/1024AILab/OC4-ReID. | 翻訳日:2024-09-04 19:15:46 公開日:2024-09-03 |
# 大規模言語モデルを用いたソーシャルメディア上の誤情報訂正
Correcting misinformation on social media with a large language model ( http://arxiv.org/abs/2403.11169v4 ) ライセンス: Link先を確認 | Xinyi Zhou, Ashish Sharma, Amy X. Zhang, Tim Althoff, | (参考訳) 現実世界の誤報は、しばしばマルチモーダルであり、部分的にあるいは完全に事実であるが、因果関係を混同するような多様な戦術を用いて誤解を招くことがある。
このような誤報は深刻な過小評価を受け、対処が困難であり、特に急速に拡散するソーシャルメディアにおいて、様々な社会的ドメインに害を与えている。
偽情報の高品質でタイムリーな修正は、その正確さを識別し、説明することで、偽の信条を効果的に減らす。
手動修正が広く受け入れられているにもかかわらず、タイムリーでスケーラブルであることは困難である。
LLMには、誤情報訂正を加速させる汎用的な機能があるが、最近の情報不足、偽コンテンツを生成する傾向、マルチモーダル情報に対処する際の制限などにより、それらは苦戦している。
本稿では,最新の情報へのアクセスと信頼性を付加したLCMであるMUSEを提案する。
MUSEは、証拠を反証として回収したり、コンテキストをサポートすることで、コンテンツ(イン)の正確さを参照で識別し、説明します。
マルチモーダル検索を行い、視覚コンテンツを解釈して、マルチモーダルコンテンツの検証と修正を行う。
包括的評価手法が欠如していることから,誤情報補正の品質の13次元について提案する。
次に、ファクトチェックの専門家は、誤情報を前提としないと思われるソーシャルメディアコンテンツに対する反応を評価し、(一部は)誤解を招く可能性のある不正確で正しい投稿を広範囲に含んでいる。
その結果、MUSEは、あらゆるモダリティ、戦術、ドメイン、政治的傾き、そしてこれまでオンラインで事実確認されていない情報に対して、ソーシャルメディアに表示されてから数分も経たないうちに、潜在的な誤報に対する高品質な応答を書く能力を示した。
MUSEは総じてGPT-4を37%上回り、質の高い反応も29%上回っている。
我々の研究は、大規模な誤情報を修正するための一般的な方法論と評価の枠組みを提供する。
Real-world misinformation, often multimodal, can be partially or fully factual but misleading using diverse tactics like conflating correlation with causation. Such misinformation is severely understudied, challenging to address, and harms various social domains, particularly on social media, where it can spread rapidly. High-quality and timely correction of misinformation that identifies and explains its (in)accuracies effectively reduces false beliefs. Despite the wide acceptance of manual correction, it is difficult to be timely and scalable. While LLMs have versatile capabilities that could accelerate misinformation correction, they struggle due to a lack of recent information, a tendency to produce false content, and limitations in addressing multimodal information. We propose MUSE, an LLM augmented with access to and credibility evaluation of up-to-date information. By retrieving evidence as refutations or supporting context, MUSE identifies and explains content (in)accuracies with references. It conducts multimodal retrieval and interprets visual content to verify and correct multimodal content. Given the absence of a comprehensive evaluation approach, we propose 13 dimensions of misinformation correction quality. Then, fact-checking experts evaluate responses to social media content that are not presupposed to be misinformation but broadly include (partially) incorrect and correct posts that may (not) be misleading. Results demonstrate MUSE's ability to write high-quality responses to potential misinformation--across modalities, tactics, domains, political leanings, and for information that has not previously been fact-checked online--within minutes of its appearance on social media. Overall, MUSE outperforms GPT-4 by 37% and even high-quality responses from laypeople by 29%. Our work provides a general methodological and evaluative framework to correct misinformation at scale. | 翻訳日:2024-09-04 19:15:46 公開日:2024-09-03 |
# LLMの意思決定はどこまで進んでいるか? マルチエージェント環境におけるLLMのゲーム能力の評価
How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments ( http://arxiv.org/abs/2403.11807v3 ) ライセンス: Link先を確認 | Jen-tse Huang, Eric John Li, Man Ho Lam, Tian Liang, Wenxuan Wang, Youliang Yuan, Wenxiang Jiao, Xing Wang, Zhaopeng Tu, Michael R. Lyu, | (参考訳) 様々な種類の能力を必要とする複雑なタスクである意思決定は、LLM(Large Language Models)を評価するための優れたフレームワークを提供する。
ゲーム理論のレンズによるLCMの意思決定能力について検討した。
2人以上のエージェントの同時参加を支援するゲームに特化しています。
LLMのマルチエージェント環境におけるゲーミング能力を評価するGAMA($\gamma$)-Benchを紹介する。
$\gamma$-Benchは8つの古典的マルチエージェントゲームと、LLMのパフォーマンスを定量的に評価するために特別に設計されたスコアリングスキームを含んでいる。
我々は$\gamma$-Benchを活用し,LLMの堅牢性,一般化可能性,拡張戦略について検討する。
その結果, GPT-3.5はロバスト性に満足するが, 一般化性は比較的限定的であることがわかった。
しかし、その性能はChain-of-Thoughtのようなアプローチによって改善できる。
さらに, GPT-3.5, GPT-4, Gemini, LLaMA-3.1, Mixtral, Qwen-2の6モデルから12バージョンの評価を行った。
Gemini-1.5-Proは、スコアが63.8ドルで100ドル、LLaMA-3.1-70BとGPT-4が60.9ドル、650.5ドルで他のモデルを上回っている。
コードと実験結果はhttps://github.com/CUHK-ARISE/GAMABench.comで公開されている。
Decision-making, a complicated task requiring various types of abilities, presents an excellent framework for assessing Large Language Models (LLMs). Our research investigates decision-making capabilities of LLMs through the lens of Game Theory. We focus specifically on games that support the simultaneous participation of more than two agents. We introduce GAMA($\gamma$)-Bench, which evaluates LLMs' Gaming Ability in Multi-Agent environments. $\gamma$-Bench includes eight classical multi-agent games and a scoring scheme specially designed to quantitatively assess LLMs' performance. Leveraging $\gamma$-Bench, we investigate LLMs' robustness, generalizability, and strategies for enhancement. Results reveal that while GPT-3.5 shows satisfying robustness, its generalizability is relatively limited. However, its performance can be improved through approaches such as Chain-of-Thought. Additionally, we evaluate twelve versions from six models, including GPT-3.5, GPT-4, Gemini, LLaMA-3.1, Mixtral, and Qwen-2. We find that Gemini-1.5-Pro outperforms other models with a score of $63.8$ out of $100$, followed by LLaMA-3.1-70B and GPT-4 with scores of $60.9$ and $60.5$, respectively. The code and experimental results are made publicly available via https://github.com/CUHK-ARISE/GAMABench. | 翻訳日:2024-09-04 19:02:17 公開日:2024-09-03 |
# 表面原子スピンからのトポロジカル量子マグネットの構築
Construction of topological quantum magnets from atomic spins on surfaces ( http://arxiv.org/abs/2403.14145v2 ) ライセンス: Link先を確認 | Hao Wang, Peng Fan, Jing Chen, Lili Jiang, Hong-Jun Gao, Jose L. Lado, Kai Yang, | (参考訳) 人工量子システムは、よく制御された方法でエキゾチックなトポロジカルな物質を実現するために、必須のプラットフォームとして登場した。
本稿では,走査型トンネル顕微鏡(STM)における絶縁膜上のスピン1/2原子を用いたスピン鎖と2次元スピンアレイで構築したトポロジカル量子ハイゼンベルクスピン格子を実演する。
量子スピンモデルのトポロジカル相と自明相の両方を原子精度で設計し,一階および二階のトポロジカル量子マグネットを実現した。
これらの多体励起は超高エネルギー分解能の単原子電子スピン共鳴によって観測された。
STM先端の原子局在化磁場は、位相的エッジ状態、位相的欠陥、高次コーナーモードを含む様々な位相的境界モードを直接可視化することができる。
この結果は、相互作用するスピンのエキゾチックな量子多体相をシミュレートするための重要なボトムアップアプローチを提供する。
Artificial quantum systems have emerged as indispensable platforms to realize exotic topological matter in a well-controlled manner. Here, we demonstrate topological quantum Heisenberg spin lattices, engineered with spin chains and two-dimensional spin arrays using spin 1/2 atoms on insulating films in a scanning tunnelling microscope (STM). We engineered with atomic precision both topological and trivial phases of the quantum spin model, realizing first- and second-order topological quantum magnets. Their many-body excitations were probed by single-atom electron spin resonance with ultrahigh energy resolution. The atomically-localized magnetic field of the STM tip allows us to directly visualize various topological bound modes including topological edge states, topological defects, and higher-order corner modes. Our results provide an important bottom-up approach to simulating exotic quantum many-body phases of interacting spins. | 翻訳日:2024-09-04 19:02:17 公開日:2024-09-03 |
# ほぼ全ての量子チャネルが対角化可能
Almost All Quantum Channels Are Diagonalizable ( http://arxiv.org/abs/2403.19643v3 ) ライセンス: Link先を確認 | Frederik vom Ende, | (参考訳) すべての量子チャネル、ユニタリチャネル、正のトレース保存写像、リンドブラディアン(GKSL生成子)、およびすべての時間依存マルコフチャネルを含む。
したがって、これらの集合の任意の元は、常に同じ集合の対角化可能な元を任意の精度で近似することができる。
We prove the statement "The collection of all elements of $\mathcal S$ which have only simple eigenvalues is dense in $\mathcal S$" for different sets $\mathcal S$, including: all quantum channels, the unital channels, the positive trace-preserving maps, all Lindbladians (GKSL-generators), and all time-dependent Markovian channels. Therefore any element from each of these sets can always be approximated by diagonalizable elements of the same set to arbitrary precision. | 翻訳日:2024-09-04 19:02:17 公開日:2024-09-03 |
# 大規模言語モデルを用いた説明可能な交通流予測に向けて
Towards Explainable Traffic Flow Prediction with Large Language Models ( http://arxiv.org/abs/2404.02937v5 ) ライセンス: Link先を確認 | Xusen Guo, Qiming Zhang, Junyue Jiang, Mingxing Peng, Meixin Zhu, Hao, Yang, | (参考訳) 交通予報はインテリジェント交通システムにとって不可欠である。
トラフィックデータの潜在パターンをキャプチャする深層学習の力のおかげで、大きな進歩を遂げた。
しかし、最近のディープラーニングアーキテクチャでは複雑なモデル設計が必要であり、入力データから予測結果へのマッピングの直感的な理解が欠如している。
トラフィック予測モデルにおける精度と説明可能性の両方を達成することは、トラフィックデータの複雑さとディープラーニングモデル固有の不透明さのために依然として課題である。
これらの課題に対処するため,大言語モデル(LLM)に基づく交通流予測モデルを提案する。
マルチモーダルなトラフィックデータを自然言語記述に転送することで、xTP-LLMは複雑な時系列パターンと外部要因を包括的なトラフィックデータからキャプチャする。
LLMフレームワークは、時空間トラフィックフローデータと整合する言語ベースの命令を用いて微調整される。
経験的に、xTP-LLMは、ディープラーニングのベースラインと比較して、競争の正確さを示すと同時に、予測の直感的で信頼性の高い説明を提供する。
本稿では, 交通予測モデルの構築に寄与し, 交通におけるLLM応用の今後の探索の基盤となる。
我々の知る限りでは、交通流の予測にLLMを用いた最初の研究である。
Traffic forecasting is crucial for intelligent transportation systems. It has experienced significant advancements thanks to the power of deep learning in capturing latent patterns of traffic data. However, recent deep-learning architectures require intricate model designs and lack an intuitive understanding of the mapping from input data to predicted results. Achieving both accuracy and explainability in traffic prediction models remains a challenge due to the complexity of traffic data and the inherent opacity of deep learning models. To tackle these challenges, we propose a Traffic flow Prediction model based on Large Language Models (LLMs) to generate explainable traffic predictions, named xTP-LLM. By transferring multi-modal traffic data into natural language descriptions, xTP-LLM captures complex time-series patterns and external factors from comprehensive traffic data. The LLM framework is fine-tuned using language-based instructions to align with spatial-temporal traffic flow data. Empirically, xTP-LLM shows competitive accuracy compared with deep learning baselines, while providing an intuitive and reliable explanation for predictions. This paper contributes to advancing explainable traffic prediction models and lays a foundation for future exploration of LLM applications in transportation. To the best of our knowledge, this is the first study to use LLM for explainable prediction of traffic flows. | 翻訳日:2024-09-04 18:50:14 公開日:2024-09-03 |
# 不均一な形態評価シナリオにおける印刷スキャンの影響
The Impact of Print-Scanning in Heterogeneous Morph Evaluation Scenarios ( http://arxiv.org/abs/2404.06559v2 ) ライセンス: Link先を確認 | Richard E. Neddo, Zander W. Blasingame, Chen Liu, | (参考訳) 顔変形攻撃は、顔認識(FR)システムに対する脅威が増大する。
形態写真には、FRの脆弱性を利用するために、2つの異なる被験者の生体情報が含まれている。
これらのシステムは、モルヒネが印刷スキャンの対象となり、モルヒネの過程で生成されたアーティファクトを隠蔽する場合、特に攻撃を受けやすい。
印刷スキャンが異質な形態素攻撃シナリオに対する一連の評価を通じて形態素攻撃検出に与える影響について検討する。
実験の結果,MMPMR(Mated Morph Presentation Match Rate)を最大8.48%向上できることがわかった。
さらに、プリントスキャンされた形態を検出するためにS-MAD(Sing-image Morphing Attack Detection)アルゴリズムが訓練されていない場合、MACER(Morphing Attack Classification Err rate)は96.12%増加し、重大な脆弱性を示す。
Face morphing attacks pose an increasing threat to face recognition (FR) systems. A morphed photo contains biometric information from two different subjects to take advantage of vulnerabilities in FRs. These systems are particularly susceptible to attacks when the morphs are subjected to print-scanning to mask the artifacts generated during the morphing process. We investigate the impact of print-scanning on morphing attack detection through a series of evaluations on heterogeneous morphing attack scenarios. Our experiments show that we can increase the Mated Morph Presentation Match Rate (MMPMR) by up to 8.48%. Furthermore, when a Single-image Morphing Attack Detection (S-MAD) algorithm is not trained to detect print-scanned morphs the Morphing Attack Classification Error Rate (MACER) can increase by up to 96.12%, indicating significant vulnerability. | 翻訳日:2024-09-04 18:50:14 公開日:2024-09-03 |
# SPIdepth:自己教師型単眼深度推定のための強化ポーズ情報
SPIdepth: Strengthened Pose Information for Self-supervised Monocular Depth Estimation ( http://arxiv.org/abs/2404.12501v3 ) ライセンス: Link先を確認 | Mykola Lavreniuk, | (参考訳) 自律走行とロボット工学への応用について、自己監督された単眼深度推定が注目されている。
最近の手法では、Self Query Layer(SQL)のようなテクニックを活用して動きから奥行きを推測する手法が採用されているが、多くの場合、ポーズ情報を強化する可能性を見落としている。
本稿では、ポーズネットワークの強化を優先して深度推定を改善する新しいアプローチであるSPIdepthを紹介する。
SQLによって構築された基盤の上に構築されているSPIdepthは、きめ細かいシーン構造をキャプチャする上で、ポーズ情報の重要性を強調している。
SPIdepthは、ポーズネットワークの能力を高めることにより、シーン理解と深さ推定における顕著な進歩を実現する。
KITTI、Cityscapes、Make3Dといったベンチマークデータセットの実験結果は、SPIdepthの最先端のパフォーマンスを示し、従来の手法をかなり上回っている。
具体的には、SPIdepthが自己監督型のKITTIベンチマークを上回っている。
さらに、SPIdepthは、KITTI上のAbsRel (0.029)、SqRel (0.069)、RMSE (1.394) の最低値を獲得し、新しい最先端の結果を確立する。
Cityscapesでは、SPIdepthはAbsRelの21.7%、SqRelの36.8%、RMSEの16.5%のSQLdepthの改善を示している。
Make3Dでは、ゼロショットのSPIdepthは他のすべてのモデルより優れている。
興味深いことに、SPIdepthは推論のために1つの画像のみを使用してこれらの結果を達成し、推論にビデオシーケンスを利用する方法さえ超え、実世界のアプリケーションにおいてその有効性と効率を実証する。
本手法は, 実世界におけるシーン理解の促進を目的としたポーズ情報強化の重要性を強調し, 自己教師型単眼深度推定における飛躍的な進歩を示す。
コードと事前訓練されたモデルはhttps://github.com/Lavreniuk/SPIdepth.comで公開されている。
Self-supervised monocular depth estimation has garnered considerable attention for its applications in autonomous driving and robotics. While recent methods have made strides in leveraging techniques like the Self Query Layer (SQL) to infer depth from motion, they often overlook the potential of strengthening pose information. In this paper, we introduce SPIdepth, a novel approach that prioritizes enhancing the pose network for improved depth estimation. Building upon the foundation laid by SQL, SPIdepth emphasizes the importance of pose information in capturing fine-grained scene structures. By enhancing the pose network's capabilities, SPIdepth achieves remarkable advancements in scene understanding and depth estimation. Experimental results on benchmark datasets such as KITTI, Cityscapes, and Make3D showcase SPIdepth's state-of-the-art performance, surpassing previous methods by significant margins. Specifically, SPIdepth tops the self-supervised KITTI benchmark. Additionally, SPIdepth achieves the lowest AbsRel (0.029), SqRel (0.069), and RMSE (1.394) on KITTI, establishing new state-of-the-art results. On Cityscapes, SPIdepth shows improvements over SQLdepth of 21.7% in AbsRel, 36.8% in SqRel, and 16.5% in RMSE, even without using motion masks. On Make3D, SPIdepth in zero-shot outperforms all other models. Remarkably, SPIdepth achieves these results using only a single image for inference, surpassing even methods that utilize video sequences for inference, thus demonstrating its efficacy and efficiency in real-world applications. Our approach represents a significant leap forward in self-supervised monocular depth estimation, underscoring the importance of strengthening pose information for advancing scene understanding in real-world applications. The code and pre-trained models are publicly available at https://github.com/Lavreniuk/SPIdepth. | 翻訳日:2024-09-04 18:40:27 公開日:2024-09-03 |
# 強化学習によるクリフォード+T回路の単元合成
Unitary Synthesis of Clifford+T Circuits with Reinforcement Learning ( http://arxiv.org/abs/2404.14865v4 ) ライセンス: Link先を確認 | Sebastian Rietsch, Abhishek Y. Dubey, Christian Ufrecht, Maniraman Periyasamy, Axel Plinge, Christopher Mutschler, Daniel D. Scherer, | (参考訳) 本稿では,量子回路にユニタリを合成する深層強化学習手法を提案する。
ユニタリ合成は、回路深さ、総ゲート数、特定のゲート数、またはこれらの組み合わせを最小化しながら、与えられたユニタリを表す量子回路を特定することを目的としている。
過去の研究は主に連続ゲート集合に焦点を当ててきたが、パラメータフリーなクリフォード+Tゲート集合からユニタリを合成することは依然として困難である。
このタスクの時間的複雑さは、一般的なユニタリーのキュービット数では必然的に指数関数的であり続けるが、単純な問題インスタンスのランタイムを減らすことは、依然として大きな課題である。
本研究では,木探索法であるGumbel AlphaZeroを用いて,正確に合成可能なClifford+Tユニタリの部分集合の問題を解く。
提案手法は,60個のゲートを持つランダム化回路から生成した最大5量子ビットの回路を効果的に合成し,より大きな量子ビット数に対する合成時間において,QuantumCircuitOptやMIN-T-SYNTHといった既存のツールより優れている。
さらに、ランダムで正確に合成可能なユニタリの合成に成功し、Synthetiqを上回っている。
これらの結果は、将来のユニタリ合成アルゴリズムの強力なベースラインを確立する。
This paper presents a deep reinforcement learning approach for synthesizing unitaries into quantum circuits. Unitary synthesis aims to identify a quantum circuit that represents a given unitary while minimizing circuit depth, total gate count, a specific gate count, or a combination of these factors. While past research has focused predominantly on continuous gate sets, synthesizing unitaries from the parameter-free Clifford+T gate set remains a challenge. Although the time complexity of this task will inevitably remain exponential in the number of qubits for general unitaries, reducing the runtime for simple problem instances still poses a significant challenge. In this study, we apply the tree-search method Gumbel AlphaZero to solve the problem for a subset of exactly synthesizable Clifford+T unitaries. Our method effectively synthesizes circuits for up to five qubits generated from randomized circuits with up to 60 gates, outperforming existing tools like QuantumCircuitOpt and MIN-T-SYNTH in terms of synthesis time for larger qubit counts. Furthermore, it surpasses Synthetiq in successfully synthesizing random, exactly synthesizable unitaries. These results establish a strong baseline for future unitary synthesis algorithms. | 翻訳日:2024-09-04 18:40:27 公開日:2024-09-03 |
# 混合型古典位相空間を持つキックトトップモデルにおける混合固有状態の分数のパワーロッド崩壊」への加算
Addendum to "Power-law decay of the fraction of the mixed eigenstates in kicked top model with mixed-type classical phase space" ( http://arxiv.org/abs/2404.15874v2 ) ライセンス: Link先を確認 | Hua Yan, Qian Wang, Marko Robnik, | (参考訳) クリャロフ部分空間法を用いて、スピンコヒーレント状態を生成することにより、量子カオスを研究するためのプロトタイプモデル、固有状態のフシミ関数を研究するためのアクセス可能なシステムサイズは、文献や我々の以前の研究であるPhysよりもはるかに大きい。
E 108, 054217 (2023) [arXiv:2308.04824]
完全にカオス化されたトップでは、平均Wehrlエントロピーの局所化測度が円ユニタリアンサンブルの予測に近づくことが分かる。
混合型の場合、古典的コンパクト位相空間におけるフシミ関数と正則領域とカオス領域の重なりによる混合固有状態の同定を行う。
数値的に、混合固有状態の分数は$j^{-\zeta}$としてスケールし、システムサイズが$j$になるにつれて、ほぼ2桁のスケールでパワー・ローの減衰が増加する。
これは、フシミ函数の一様半古典的凝縮の原理と半古典的極限におけるベリー・ロブニク図形を裏付ける証拠を与える。
By using the Krylov subspace technique to generate the spin coherent states in kicked top model, a prototype model for studying quantum chaos, the accessible system size for studying the Husimi functions of eigenstates can be much larger than that reported in the literature and our previous study Phys. Rev. E 108, 054217 (2023) [arXiv:2308.04824]. In the fully chaotic kicked top, we find that the mean Wehrl entropy localization measure approaches the prediction given by the Circular Unitary Ensemble. In the mixed-type case, we identify mixed eigenstates by the overlap of the Husimi function with regular and chaotic regions in classical compact phase space. Numerically, we show that the fraction of mixed eigenstates scales as $j^{-\zeta}$, a power-law decay as the system size $j$ increases, across nearly two orders of magnitude. This provides supporting evidence for the principle of uniform semiclassical condensation of Husimi functions and the Berry-Robnik picture in the semiclassical limit. | 翻訳日:2024-09-04 18:40:27 公開日:2024-09-03 |
# 協調認知のためのフェデレーション学習フレームワークについて
On the Federated Learning Framework for Cooperative Perception ( http://arxiv.org/abs/2404.17147v4 ) ライセンス: Link先を確認 | Zhenrong Zhang, Jianan Liu, Xi Zhou, Tao Huang, Qing-Long Han, Jingxin Liu, Hongbin Liu, | (参考訳) 協力的な認識は将来の輸送システムの効率性と安全性を高めるために不可欠であり、道路上の車両間での広範なデータ共有が必要であり、プライバシー上の懸念を生じさせる。
フェデレーション学習は、コネクテッドおよび自律走行車(CAV)間の知覚、意思決定、計画における、データのプライバシ保護による協調的な強化を可能にすることで、有望なソリューションを提供する。
しかし、フェデレート学習は、多様なクライアント間のデータの均一性から生じる重大な課題によって妨げられ、モデルの精度が低下し、収束期間が長くなる可能性がある。
本研究では, 動的調整損失(DALoss)関数によって促進されるFedDWAアルゴリズム(Federated dynamic weighted aggregate, FedDWA)と呼ばれる, CPのための特殊な連合学習フレームワークを提案する。
このフレームワークは、動的クライアント重み付けをモデル収束の直接化に利用し、KLD(Kullback-Leibler divergence)を利用して非独立かつ同一に分散された(Non-IID)データと不均衡なデータの有害な影響を対処する新しい損失関数を統合する。
BEV変換器を主モデルとして、FedBEVTデータで拡張したOpenV2Vデータセットの厳密なテストを行い、結合平均交差(IoU)が大幅に改善されたことを示す。
これらの結果は,CPにおけるデータ不均一性問題に対処し,環境認識モデルの精度を高め,交通セクターにおけるより堅牢で効率的な協調学習ソリューションを実現するための,我々の連合学習フレームワークの実質的な可能性を強調した。
Cooperative perception is essential to enhance the efficiency and safety of future transportation systems, requiring extensive data sharing among vehicles on the road, which raises significant privacy concerns. Federated learning offers a promising solution by enabling data privacy-preserving collaborative enhancements in perception, decision-making, and planning among connected and autonomous vehicles (CAVs). However, federated learning is impeded by significant challenges arising from data heterogeneity across diverse clients, potentially diminishing model accuracy and prolonging convergence periods. This study introduces a specialized federated learning framework for CP, termed the federated dynamic weighted aggregation (FedDWA) algorithm, facilitated by dynamic adjusting loss (DALoss) function. This framework employs dynamic client weighting to direct model convergence and integrates a novel loss function that utilizes Kullback-Leibler divergence (KLD) to counteract the detrimental effects of non-independently and identically distributed (Non-IID) and unbalanced data. Utilizing the BEV transformer as the primary model, our rigorous testing on the OpenV2V dataset, augmented with FedBEVT data, demonstrates significant improvements in the average intersection over union (IoU). These results highlight the substantial potential of our federated learning framework to address data heterogeneity challenges in CP, thereby enhancing the accuracy of environmental perception models and facilitating more robust and efficient collaborative learning solutions in the transportation sector. | 翻訳日:2024-09-04 18:30:43 公開日:2024-09-03 |
# Drowzee: 大規模言語モデルにおけるFact-Conflicting Hallucination検出のためのメタモルフィックテスト
Drowzee: Metamorphic Testing for Fact-Conflicting Hallucination Detection in Large Language Models ( http://arxiv.org/abs/2405.00648v2 ) ライセンス: Link先を確認 | Ningke Li, Yuekang Li, Yi Liu, Ling Shi, Kailong Wang, Haoyu Wang, | (参考訳) 大規模言語モデル(LLM)は言語処理の状況を変えてきたが、セキュリティ、プライバシ、そして一見整合的であるように見えるが事実的に不正確なアウトプット(幻覚と呼ばれる)の生成という重要な課題に苦戦している。
これらの課題のうち、特に重要な問題はFact-Conflicting Hallucination (FCH)であり、LLMは確立された事実と直接矛盾するコンテンツを生成する。
第一に、ベンチマークデータセットの構築と更新を自動化することは、現在のメソッドは、さまざまなFCHシナリオをカバーしていない静的ベンチマークに依存しているため、難しい。
第二に、LLM出力の推論過程の検証は本質的に複雑であり、特に複雑な論理的関係が関係している。
これらの障害に対処するために、我々は、FCH(Fact-Conflicting Hallucinations)の検出のためのメタモルフィックテストを強化するために、論理プログラミングを活用する革新的なアプローチを提案する。
本手法は,ウィキペディアなどの情報源からのデータを収集し,論理的推論を用いて拡張し,多様なテストケースを作成し,構造化されたプロンプトを通してLCMを評価し,セマンティック・アウェア・アセスメント・メカニズムを用いてそれらのコヒーレンスを検証する。
テストケースを生成し,9つの領域にまたがる6種類のLLMに対して幻覚を検知し,24.7%から59.8%の幻覚率を示す。
主要な観察は、LLMが、特に時間的概念、分配外知識の扱い、論理的推論能力の欠如に直面することを示唆している。
その結果,幻覚の誘発と同定の両面で,我々のツールが生成した論理ベースのテストケースの有効性を裏付ける結果となった。
これらの知見は, LLM幻覚の発見と対処に, コミュニティ内の協力的努力が不可欠であることを示すものである。
Large language models (LLMs) have transformed the landscape of language processing, yet struggle with significant challenges in terms of security, privacy, and the generation of seemingly coherent but factually inaccurate outputs, commonly referred to as hallucinations. Among these challenges, one particularly pressing issue is Fact-Conflicting Hallucination (FCH), where LLMs generate content that directly contradicts established facts. Tackling FCH poses a formidable task due to two primary obstacles: Firstly, automating the construction and updating of benchmark datasets is challenging, as current methods rely on static benchmarks that don't cover the diverse range of FCH scenarios. Secondly, validating LLM outputs' reasoning process is inherently complex, especially with intricate logical relations involved. In addressing these obstacles, we propose an innovative approach leveraging logic programming to enhance metamorphic testing for detecting Fact-Conflicting Hallucinations (FCH). Our method gathers data from sources like Wikipedia, expands it with logical reasoning to create diverse test cases, assesses LLMs through structured prompts, and validates their coherence using semantic-aware assessment mechanisms. Our method generates test cases and detects hallucinations across six different LLMs spanning nine domains, revealing hallucination rates ranging from 24.7% to 59.8%. Key observations indicate that LLMs encounter challenges, particularly with temporal concepts, handling out-of-distribution knowledge, and exhibiting deficiencies in logical reasoning capabilities. The outcomes underscore the efficacy of logic-based test cases generated by our tool in both triggering and identifying hallucinations. These findings underscore the imperative for ongoing collaborative endeavors within the community to detect and address LLM hallucinations. | 翻訳日:2024-09-04 18:30:43 公開日:2024-09-03 |
# NeMo-Aligner: 効率的なモデルアライメントのためのスケーラブルなツールキット
NeMo-Aligner: Scalable Toolkit for Efficient Model Alignment ( http://arxiv.org/abs/2405.01481v2 ) ライセンス: Link先を確認 | Gerald Shen, Zhilin Wang, Olivier Delalleau, Jiaqi Zeng, Yi Dong, Daniel Egert, Shengyang Sun, Jimmy Zhang, Sahil Jain, Ali Taghibakhshi, Markel Sanz Ausin, Ashwath Aithal, Oleksii Kuchaiev, | (参考訳) 大規模言語モデル(LLM)を人的価値と好みで調整することは、それらを有用かつ安全にするために不可欠である。
しかし、アライメントを行うための効率的なツールの構築は困難であり、特に数十億から数百億のパラメータを含む最大かつ最も有能なLLMでは困難である。
NeMo-Alignerは,Nemotron 4 340BやLlama 3.1 405Bなど,最大のオープンソースLLMをトレーニングするために,1,000GPUまで効率的にスケール可能な,モデルアライメント用ツールキットである。
NeMo-Alignerには、Reinforcement Learning from Human Feedback (RLHF)、Direct Preference Optimization (DPO)、SteerLM、Self-Play Fine-Tuning (SPIN)など、モデルアライメントの主要なパラダイムに対する高度に最適化されたスケーラブルな実装が付属している。
さらに,本ツールキットは,パラメータ・エフェクト・ファイン・チューニング(PEFT)設定におけるアライメント技術の大部分の実行をサポートする。
NeMo-Alignerは拡張性のために設計されており、最小限の労力で他のアライメント技術をサポートすることができる。
Apache 2.0 Licenseでオープンソース化されており、コミュニティからのコントリビューションをhttps://github.com/NVIDIA/NeMo-Alignerで募集しています。
Aligning Large Language Models (LLMs) with human values and preferences is essential for making them helpful and safe. However, building efficient tools to perform alignment can be challenging, especially for the largest and most competent LLMs which often contain tens or hundreds of billions of parameters. We create NeMo-Aligner, a toolkit for model alignment that can efficiently scale to a thousand GPUs for training the largest open-source LLMs such as Nemotron 4 340B and Llama 3.1 405B. NeMo-Aligner comes with highly optimized and scalable implementations for major paradigms of model alignment such as: Reinforcement Learning from Human Feedback (RLHF), Direct Preference Optimization (DPO), SteerLM, and Self-Play Fine-Tuning (SPIN). Additionally, our toolkit supports running most of the alignment techniques in a Parameter Efficient Fine-Tuning (PEFT) setting. NeMo-Aligner is designed for extensibility, allowing support for other alignment techniques with minimal effort. It is open-sourced with Apache 2.0 License and we invite community contributions at https://github.com/NVIDIA/NeMo-Aligner | 翻訳日:2024-09-04 18:30:43 公開日:2024-09-03 |
# ハーフウェイエスケープ最適化:一般最適化問題に対する量子インスパイアされた解法
Halfway Escape Optimization: A Quantum-Inspired Solution for General Optimization Problems ( http://arxiv.org/abs/2405.02850v6 ) ライセンス: Link先を確認 | Jiawen Li, Anwar PP Abdul Majeed, Pascal Lefevre, | (参考訳) 本稿ではまず,高次収束率で高次元の地形を特徴とする一般最適化問題に対処するために,量子インスパイアされたメタヒューリスティックであるHalfway Escape Optimization (HEO)アルゴリズムを提案する。
本研究では,粒子群最適化 (PSO), 遺伝的アルゴリズム (GA), 人工魚群アルゴリズム (AFSA), グレイウルフ最適化 (GWO), 量子行動群最適化 (QPSO) など,確立された最適化アルゴリズムに対するHEOの性能を総合的に比較した。
一次解析は、次元30の14のベンチマーク関数を含み、一般最適化問題のナビゲートにおけるHEOの有効性と適応性を示し、その性能に関する貴重な洞察を提供する。
圧力容器設計および管状カラム設計におけるHEOの試験は、その実現可能性とリアルタイム応用の可能性について推測する。
Osmancik-97とCammeo Rice Classificationのさらなる検証により、HEOの有効性が証明され、高い精度の記録が得られる。
This paper first proposes the Halfway Escape Optimization (HEO) algorithm, a quantum-inspired metaheuristic designed to address general optimization problems characterized by rugged landscapes and high-dimensionality with an efficient convergence rate. The study presents a comprehensive comparative evaluation of HEO's performance against established optimization algorithms, including Particle Swarm Optimization (PSO), Genetic Algorithm (GA), Artificial Fish Swarm Algorithm (AFSA), Grey Wolf Optimizer (GWO), and Quantum behaved Particle Swarm Optimization (QPSO). The primary analysis encompasses 14 benchmark functions with dimension 30, demonstrating HEO's effectiveness and adaptability in navigating general optimization problems and providing valuable insights into its performance. The test of HEO in Pressure Vessel Design and Tubular Column Design infers its feasibility and potential in real-time applications. Further validation in Osmancik-97 and Cammeo Rice Classification proves the effectiveness of HEO and achieves a higher accuracy record. | 翻訳日:2024-09-04 18:30:43 公開日:2024-09-03 |
# インピーダンス対パワーサイドチャネル脆弱性 : 比較検討
Impedance vs. Power Side-channel Vulnerabilities: A Comparative Study ( http://arxiv.org/abs/2405.06242v2 ) ライセンス: Link先を確認 | Md Sadik Awal, Buddhipriya Gayanath, Md Tauhidur Rahman, | (参考訳) 近年,コンピュータシステムから機密情報を抽出しようとする敵の強力な戦略として,インピーダンス側チャネル分析が登場している。
これは、チップの内部構造が異なる論理状態にまたがる固有のインピーダンスの変化を利用する。
本研究では,新たに検討したインピーダンス側流路と確立された電力側流路との比較分析を行う。
実験により,AES(Advanced Encryption Standard)から暗号鍵を抽出し,その性能を解析した。
その結果, インピーダンス解析は, 電力側チャネル解析と比較して, 暗号鍵抽出の可能性が高いことが示された。
さらに,パワーサイドチャネル解析では良好な結果が得られず,インピーダンス解析ではより堅牢で効果的であることが証明された。
この研究は、暗号セキュリティの強化におけるインピーダンス側チャネル分析の重要性を浮き彫りにするだけでなく、そのメカニズムと意味をより深く理解する必要があることも強調している。
In recent times, impedance side-channel analysis has emerged as a potent strategy for adversaries seeking to extract sensitive information from computing systems. It leverages variations in the intrinsic impedance of a chip's internal structure across different logic states. In this study, we conduct a comparative analysis between the newly explored impedance side channel and the well-established power side channel. Through experimental evaluation, we investigate the efficacy of these two side channels in extracting the cryptographic key from the Advanced Encryption Standard (AES) and analyze their performance. Our results indicate that impedance analysis demonstrates a higher potential for cryptographic key extraction compared to power side-channel analysis. Moreover, we identify scenarios where power side-channel analysis does not yield satisfactory results, whereas impedance analysis proves to be more robust and effective. This work not only underscores the significance of impedance side-channel analysis in enhancing cryptographic security but also emphasizes the necessity for a deeper understanding of its mechanisms and implications. | 翻訳日:2024-09-04 18:20:55 公開日:2024-09-03 |
# フェアミックスエフェクト支援ベクトルマシン
Fair Mixed Effects Support Vector Machine ( http://arxiv.org/abs/2405.06433v3 ) ライセンス: Link先を確認 | João Vitor Pamplona, Jan Pablo Burgard, | (参考訳) 偏見のない倫理的自動予測を保証するためには、公正性は機械学習アプリケーションにおける中核的な原則でなければならない。
機械学習の公正性は、トレーニングデータに存在するバイアスを緩和し、差別的な結果につながる可能性のある欠陥をモデル化することを目的としている。
これは、モデルが民族性や性的指向といった繊細な特徴に基づいて決定するのを防ぐことで達成される。
機械学習の基本的な前提は観察の独立である。
しかし、この仮定は、しばしばデータポイントがクラスタ化された社会現象を記述するデータには当てはまらないことが多い。
したがって、機械学習モデルがクラスタ相関を考慮していない場合、結果はバイアスを受ける可能性がある。
特に、クラスタ割り当てが関心の変数と相関している場合のバイアスが高い。
両問題を同時に処理できるベクターマシンアルゴリズムを提案する。
再現可能なシミュレーション研究により、クラスタ化されたデータが公正な機械学習予測の品質に与える影響を実証する。
To ensure unbiased and ethical automated predictions, fairness must be a core principle in machine learning applications. Fairness in machine learning aims to mitigate biases present in the training data and model imperfections that could lead to discriminatory outcomes. This is achieved by preventing the model from making decisions based on sensitive characteristics like ethnicity or sexual orientation. A fundamental assumption in machine learning is the independence of observations. However, this assumption often does not hold true for data describing social phenomena, where data points are often clustered based. Hence, if the machine learning models do not account for the cluster correlations, the results may be biased. Especially high is the bias in cases where the cluster assignment is correlated to the variable of interest. We present a fair mixed effects support vector machine algorithm that can handle both problems simultaneously. With a reproducible simulation study we demonstrate the impact of clustered data on the quality of fair machine learning predictions. | 翻訳日:2024-09-04 18:20:55 公開日:2024-09-03 |
# 古典ゲームにおける許容4ストラテジー量子拡大
Permissible four-strategy quantum extensions of classical games ( http://arxiv.org/abs/2405.07380v2 ) ライセンス: Link先を確認 | Piotr Frąckiewicz, Anna Gorczyca-Goraj, Marek Szopa, | (参考訳) この研究は、2つのユニタリ演算によりアイザート・ウィルケンス・リューエンシュタインスキームで拡張された戦略形式ゲームに焦点を当てている。
条件は、一対のユニタリ作用素と古典的戦略が入力された古典的ゲームの同型変換の下でゲーム不変量を形成する条件を決定する。
これらの条件がこれらの作用素を決定するために適用され、その結果、同型規準を満たすゲームの5つの主要なクラスが成立し、この同型に対する実践的な規準を与える定理が証明される。
拡張の異なるクラス間の相互依存性は、あるクラスが別のクラスに変換される極限ケースを含む特定される。
The study focuses on strategic-form games extended in the Eisert-Wilkens-Lewenstein scheme by two unitary operations. Conditions are determined under which the pair of unitary operators, along with classical strategies, form a game invariant under isomorphic transformations of the input classical game. These conditions are then applied to determine these operators, resulting in five main classes of games satisfying the isomorphism criterion, and a theorem is proved providing a practical criterion for this isomorphism. The interdependencies between different classes of extensions are identified, including limit cases in which one class transforms into another. | 翻訳日:2024-09-04 18:20:55 公開日:2024-09-03 |
# アクティブ電圧制御のための安全制約付きマルチエージェント強化学習
Safety Constrained Multi-Agent Reinforcement Learning for Active Voltage Control ( http://arxiv.org/abs/2405.08443v2 ) ライセンス: Link先を確認 | Yang Qu, Jinming Ma, Feng Wu, | (参考訳) アクティブ電圧制御は、屋上太陽光発電などの電力ネットワークにおける分散制御可能発電機を利用して、電力混雑の軽減と電圧品質の向上のための有望な道を示す。
MARL(Multi-Agent Reinforcement Learning)は、この問題に対処するための魅力的なアプローチとして登場したが、既存のMARLアプローチは、この問題の制約された最適化特性を見落とし、安全性の制約を保証しない傾向にある。
本稿では,能動電圧制御問題を制約付きマルコフゲームとして定式化し,安全性に制約のあるMARLアルゴリズムを提案する。
そこで,本手法をマルチエージェント設定に拡張し,ポリシーの学習とラグランジュ乗算器の更新のために,二重安全性推定の新しいアプローチで拡張する。
さらに,異なるコスト関数を提案し,制約付きMARL法の挙動に与える影響について検討した。
実世界規模シナリオを用いた配電ネットワークシミュレーション環境における本手法の評価を行った。
実験により,提案手法の有効性を最先端のMARL法と比較した。
この論文は \url{https://www.ijcai.org/Proceedings/2024/} で発表されている。
Active voltage control presents a promising avenue for relieving power congestion and enhancing voltage quality, taking advantage of the distributed controllable generators in the power network, such as roof-top photovoltaics. While Multi-Agent Reinforcement Learning (MARL) has emerged as a compelling approach to address this challenge, existing MARL approaches tend to overlook the constrained optimization nature of this problem, failing in guaranteeing safety constraints. In this paper, we formalize the active voltage control problem as a constrained Markov game and propose a safety-constrained MARL algorithm. We expand the primal-dual optimization RL method to multi-agent settings, and augment it with a novel approach of double safety estimation to learn the policy and to update the Lagrange-multiplier. In addition, we proposed different cost functions and investigated their influences on the behavior of our constrained MARL method. We evaluate our approach in the power distribution network simulation environment with real-world scale scenarios. Experimental results demonstrate the effectiveness of the proposed method compared with the state-of-the-art MARL methods. This paper is published at \url{https://www.ijcai.org/Proceedings/2024/}. | 翻訳日:2024-09-04 18:20:55 公開日:2024-09-03 |
# 教師なし領域適応の観点からの高解像度医用画像分割の再考
Rethinking Barely-Supervised Volumetric Medical Image Segmentation from an Unsupervised Domain Adaptation Perspective ( http://arxiv.org/abs/2405.09777v2 ) ライセンス: Link先を確認 | Zhiqiang Shen, Peng Cao, Junming Su, Jinzhu Yang, Osmar R. Zaiane, | (参考訳) 本稿では,ほとんど管理されていないボリューム・イメージ・セグメンテーション (BSS) という,極めて困難な課題について検討する。
BSSトレーニングデータセットは2つの部分から構成される。
1) ラベル付き画像が単一のスライスアノテーションのみを含む、ほとんど注釈のないラベル付きセット
2)多数の未ラベルボリューム画像からなる未ラベルセット。
State-of-the-the-art BSS法は登録に基づくパラダイムを用いており、スライス間の画像登録を用いて、単一スライスアノテーションをボリュームの擬似ラベルに伝達し、完全に注釈付きラベル付きセットを構築し、半教師付きセグメンテーションスキームを適用することができる。
しかし、このパラダイムには限界があり、画像登録によって生成された擬似ラベルは信頼性が低くうるさい。
そこで本研究では,半教師付き学習方式でBSSを解く代わりに,BSSを教師なし領域適応問題として定式化する手法を提案する。
そこで本研究では,支配的登録パラダイムの代替として,新しいBSSフレームワークである‘textbf{B}arely-supervised learning \textbf{via} unsupervised domain \textbf{A}daptation (BvA)を提案する。
具体的には、まず、スライス・ツー・ボリュームラベル付きデータ合成のための新しいノイズフリーラベル付きデータ構築アルゴリズム(NFC)を設計する。
次に、周波数と空間の混合戦略(FSX)を導入し、領域シフトを緩和する。
大規模な実験により,本手法はBSSに有望な代替手段を提供することが示された。
特筆すべきは、左房セグメンテーションデータセットをわずかにラベル付けされた画像でトレーニングし、Diceスコアが81.20%に達し、最先端を61.71%上回ったことである。
コードは \href{https://github.com/Senyh/BvA}{\textit{\textt{https://github.com/Senyh/BvA}}} で公開されている。
This paper investigates an extremely challenging problem: barely-supervised volumetric medical image segmentation (BSS). A BSS training dataset consists of two parts: 1) a barely-annotated labeled set, where each labeled image contains only a single-slice annotation, and 2) an unlabeled set comprising numerous unlabeled volumetric images. State-of-the-art BSS methods employ a registration-based paradigm, which uses inter-slice image registration to propagate single-slice annotations into volumetric pseudo labels, constructing a completely annotated labeled set, to which a semi-supervised segmentation scheme can be applied. However, the paradigm has a critical limitation: the pseudo-labels generated by image registration are unreliable and noisy. Motivated by this, we propose a new perspective: instead of solving BSS within a semi-supervised learning scheme, this work formulates BSS as an unsupervised domain adaptation problem. To this end, we propose a novel BSS framework, \textbf{B}arely-supervised learning \textbf{via} unsupervised domain \textbf{A}daptation (BvA), as an alternative to the dominant registration paradigm. Specifically, we first design a novel noise-free labeled data construction algorithm (NFC) for slice-to-volume labeled data synthesis. Then, we introduce a frequency and spatial Mix-Up strategy (FSX) to mitigate the domain shifts. Extensive experiments demonstrate that our method provides a promising alternative for BSS. Remarkably, the proposed method, trained on the left atrial segmentation dataset with \textbf{only one} barely-labeled image, achieves a Dice score of 81.20%, outperforming the state-of-the-art by 61.71%. The code is available at \href{https://github.com/Senyh/BvA}{\textit{\texttt{https://github.com/Senyh/BvA}}}. | 翻訳日:2024-09-04 18:20:55 公開日:2024-09-03 |
# 時空間時系列予測のための不均質インフォームドメタパラメータ学習
Heterogeneity-Informed Meta-Parameter Learning for Spatiotemporal Time Series Forecasting ( http://arxiv.org/abs/2405.10800v2 ) ライセンス: Link先を確認 | Zheng Dong, Renhe Jiang, Haotian Gao, Hangchen Liu, Jinliang Deng, Qingsong Wen, Xuan Song, | (参考訳) 時空間時系列予測は、幅広い現実世界の応用において重要な役割を果たす。
この領域では大きな進歩があったが、時空間の不均一性を完全に把握し活用することは根本的な課題である。
そこで本研究では,不均一なメタパラメータ学習方式を提案する。
具体的には,空間的および時間的埋め込みを学習することで,空間的不均一性を暗黙的に捉え,クラスタリングのプロセスと見なすことができる。
そこで,メタパラメータプールから時空間固有のパラメータを学習するために,新しい時空間メタパラメータ学習パラダイムを提案する。
これらの考え方に基づき、時空間時系列予測のためのヘテロジニティインフォームド時空間メタネットワーク(HimNet)を開発した。
広範に使用されている5つのベンチマーク実験により,本手法は高い解釈性を示しながら,最先端の性能を実現することを示す。
私たちのコードはhttps://github.com/XDZhelheim/HimNet.comで公開されています。
Spatiotemporal time series forecasting plays a key role in a wide range of real-world applications. While significant progress has been made in this area, fully capturing and leveraging spatiotemporal heterogeneity remains a fundamental challenge. Therefore, we propose a novel Heterogeneity-Informed Meta-Parameter Learning scheme. Specifically, our approach implicitly captures spatiotemporal heterogeneity through learning spatial and temporal embeddings, which can be viewed as a clustering process. Then, a novel spatiotemporal meta-parameter learning paradigm is proposed to learn spatiotemporal-specific parameters from meta-parameter pools, which is informed by the captured heterogeneity. Based on these ideas, we develop a Heterogeneity-Informed Spatiotemporal Meta-Network (HimNet) for spatiotemporal time series forecasting. Extensive experiments on five widely-used benchmarks demonstrate our method achieves state-of-the-art performance while exhibiting superior interpretability. Our code is available at https://github.com/XDZhelheim/HimNet. | 翻訳日:2024-09-04 18:20:55 公開日:2024-09-03 |
# PointRWKV:階層型クラウド学習のための効率的なRWKVライクなモデル
PointRWKV: Efficient RWKV-Like Model for Hierarchical Point Cloud Learning ( http://arxiv.org/abs/2405.15214v2 ) ライセンス: Link先を確認 | Qingdong He, Jiangning Zhang, Jinlong Peng, Haoyang He, Xiangtai Li, Yabiao Wang, Chengjie Wang, | (参考訳) トランスフォーマーは、ポイントクラウド学習タスクに革命をもたらしたが、二次的な複雑さは、長いシーケンスへの拡張を妨げ、限られた計算リソースに負担をかける。
新たな深部配列モデルであるRWKVの最近の出現は、NLPタスクにおけるシーケンスモデリングの大きな可能性を示している。
本稿では,NLP分野におけるRWKVモデルから導出される線形複雑度モデルであるPointRWKVについて述べる。
具体的には, 組込み点パッチを入力として, 改良型マルチヘッド行列値状態と動的注意再帰機構を用いて, PointRWKVブロック内のグローバル処理機能について検討する。
局所的な幾何学的特徴を同時に抽出するために,グラフ安定化器を用いた固定半径近傍グラフにおいて,点雲を効率的に符号化する並列分岐を設計する。
さらに、3Dポイントクラウドの階層的特徴学習のためのマルチスケールフレームワークとしてPointRWKVを設計し、様々な下流タスクを容易にする。
異なる点のクラウド学習タスクに関する大規模な実験により、提案したPointRWKVは、トランスフォーマーおよびマンバベースのものよりも優れ、約42\%のFLOPを節約し、基礎的な3Dモデルを構築するための潜在的選択肢を示す。
Transformers have revolutionized the point cloud learning task, but the quadratic complexity hinders its extension to long sequence and makes a burden on limited computational resources. The recent advent of RWKV, a fresh breed of deep sequence models, has shown immense potential for sequence modeling in NLP tasks. In this paper, we present PointRWKV, a model of linear complexity derived from the RWKV model in the NLP field with necessary modifications for point cloud learning tasks. Specifically, taking the embedded point patches as input, we first propose to explore the global processing capabilities within PointRWKV blocks using modified multi-headed matrix-valued states and a dynamic attention recurrence mechanism. To extract local geometric features simultaneously, we design a parallel branch to encode the point cloud efficiently in a fixed radius near-neighbors graph with a graph stabilizer. Furthermore, we design PointRWKV as a multi-scale framework for hierarchical feature learning of 3D point clouds, facilitating various downstream tasks. Extensive experiments on different point cloud learning tasks show our proposed PointRWKV outperforms the transformer- and mamba-based counterparts, while significantly saving about 42\% FLOPs, demonstrating the potential option for constructing foundational 3D models. | 翻訳日:2024-09-04 18:11:10 公開日:2024-09-03 |
# 周期的に駆動されるスピン鎖の拡散複雑性と量子カオス
Spread complexity and quantum chaos for periodically driven spin chains ( http://arxiv.org/abs/2405.16182v2 ) ライセンス: Link先を確認 | Amin A. Nizami, Ankit W. Shrestha, | (参考訳) 動的進化の下での量子状態の複雑さは、予め定義された基底で状態の時間による拡散を研究することによって研究することができる。
この複雑さは、クリロフ基底を選択することによって最小化され、したがって拡散複雑性を定義することが知られている。
量子地図における拡散複雑性のダイナミクスをアルノルニ反復法を用いて研究する。
私たちが使用している主要な説明的量子多体モデルは、局所的および非局所的相互作用を観察するカオスシステムである、非可積分変形を伴う周期的に蹴られたイジングスピン鎖である。
様々な場合において、正規対カオス力学におけるアルノルニ係数の特異な挙動と拡散複雑性:アルノルニ係数の変動を抑制し、カオスの場合の拡散複雑性の飽和値を大きくする。
クリャロフ測度とカオスの標準的なスペクトル診断の挙動を比較した。
また,運転周波数の変化が複雑性飽和に及ぼす影響についても検討した。
The complexity of quantum states under dynamical evolution can be investigated by studying the spread with time of the state over a pre-defined basis. It is known that this complexity is minimised by choosing the Krylov basis, thus defining the spread complexity. We study the dynamics of spread complexity for quantum maps using the Arnoldi iterative procedure. The main illustrative quantum many-body model we use is the periodically kicked Ising spin-chain with non-integrable deformations, a chaotic system where we look at both local and non-local interactions. In the various cases we find distinctive behaviour of the Arnoldi coefficients and spread complexity for regular vs. chaotic dynamics: suppressed fluctuations in the Arnoldi coefficients as well as larger saturation value in spread complexity in the chaotic case. We compare the behaviour of the Krylov measures with that of standard spectral diagnostics of chaos. We also study the effect of changing the driving frequency on the complexity saturation. | 翻訳日:2024-09-04 18:00:58 公開日:2024-09-03 |
# 深部強化学習における統計的文脈検出
Statistical Context Detection for Deep Lifelong Reinforcement Learning ( http://arxiv.org/abs/2405.19047v2 ) ライセンス: Link先を確認 | Jeffery Dick, Saptarshi Nath, Christos Peridis, Eseoghene Benjamin, Soheil Kolouri, Andrea Soltoggio, | (参考訳) コンテキスト検出では、オンラインデータストリームのセグメントを、異なるタスクに属するものとしてラベル付けする。
タスクラベルは、生涯学習アルゴリズムにおいて、破滅的な忘れ込みを防ぐ統合やその他の手順を実行するために使用される。
オンライン体験からタスクラベルを推測することは難しい問題だ。
ほとんどのアプローチでは、有限次元および低次元の観測空間や、タスクラベルが学習される予備的な訓練段階を仮定する。
さらに、遷移関数や報酬関数の変化はポリシーと組み合わせてのみ検出できるため、入力分布の変化よりも検出が難しい。
本稿では、オンラインの深層強化学習環境において、ポリシーとラベルの両方を学習するためのアプローチを提案する。
鍵となる考え方は、過去のデータポイントと現在のストリーム間の距離を測定するために、ワッサースタイン距離(Wasserstein distance)という最適な輸送方法によって得られる距離メトリクスを使用することである。
このような距離は、適応されたコルモゴロフ=スミルノフの計算に基づいて統計テストに使用でき、ラベルを経験の列に割り当てることができる。
複数のポリシーを学習するためにロールバック手順を導入し、適切なデータのみを使用して対応するポリシーをトレーニングする。
タスク検出とポリシー展開の組み合わせにより、タスクラベルを提供するオラクルなしで、生涯にわたる強化学習エージェントを最適化することができる。
この手法は2つのベンチマークを用いてテストし、関連するコンテキスト検出アルゴリズムと比較すると有望な性能を示す。
その結果, 最適輸送統計手法は, 生涯強化学習におけるオンライン文脈検出と報酬最適化のための説明可能な, 妥当な手順であることがわかった。
Context detection involves labeling segments of an online stream of data as belonging to different tasks. Task labels are used in lifelong learning algorithms to perform consolidation or other procedures that prevent catastrophic forgetting. Inferring task labels from online experiences remains a challenging problem. Most approaches assume finite and low-dimension observation spaces or a preliminary training phase during which task labels are learned. Moreover, changes in the transition or reward functions can be detected only in combination with a policy, and therefore are more difficult to detect than changes in the input distribution. This paper presents an approach to learning both policies and labels in an online deep reinforcement learning setting. The key idea is to use distance metrics, obtained via optimal transport methods, i.e., Wasserstein distance, on suitable latent action-reward spaces to measure distances between sets of data points from past and current streams. Such distances can then be used for statistical tests based on an adapted Kolmogorov-Smirnov calculation to assign labels to sequences of experiences. A rollback procedure is introduced to learn multiple policies by ensuring that only the appropriate data is used to train the corresponding policy. The combination of task detection and policy deployment allows for the optimization of lifelong reinforcement learning agents without an oracle that provides task labels. The approach is tested using two benchmarks and the results show promising performance when compared with related context detection algorithms. The results suggest that optimal transport statistical methods provide an explainable and justifiable procedure for online context detection and reward optimization in lifelong reinforcement learning. | 翻訳日:2024-09-04 18:00:58 公開日:2024-09-03 |
# 内部の危険 - ビジネスプロセスモデルを用いたインサイダー脅威モデリング
The Danger Within: Insider Threat Modeling Using Business Process Models ( http://arxiv.org/abs/2406.01135v2 ) ライセンス: Link先を確認 | Jan von der Assen, Jasmin Hochuli, Thomas Grübl, Burkhard Stiller, | (参考訳) 脅威モデリングは、情報システム内の技術的脅威のモデル化に成功している。
しかし、非技術資産とその表現に焦点を当てた手法の欠如は理論や実践において観察できる。
業界実践者の声に続き、ビジネスプロセスモデルに基づいてインサイダー脅威をモデル化する方法を考察した。
そこで本研究では、BPMN(Business Process Modeling and Notation)を活用した、新たなインサイダー脅威知識ベースと脅威モデリングアプリケーションを開発した。
最後に、理論的な知識とそのプロトタイプがいかに実践されるかを理解するため、本研究では、ITプロバイダのビジネスプロセスと、実際の投票プロセスのための実験的なデプロイの実際のケーススタディを実施した。
その結果は、アノテーションなしでもBPMNダイアグラムを利用して組織内の脅威を自動的に識別できることを示している。
Threat modeling has been successfully applied to model technical threats within information systems. However, a lack of methods focusing on non-technical assets and their representation can be observed in theory and practice. Following the voices of industry practitioners, this paper explored how to model insider threats based on business process models. Hence, this study developed a novel insider threat knowledge base and a threat modeling application that leverages Business Process Modeling and Notation (BPMN). Finally, to understand how well the theoretic knowledge and its prototype translate into practice, the study conducted a real-world case study of an IT provider's business process and an experimental deployment for a real voting process. The results indicate that even without annotation, BPMN diagrams can be leveraged to automatically identify insider threats in an organization. | 翻訳日:2024-09-04 18:00:58 公開日:2024-09-03 |
# LLMのスケーラブルな自動アライメントに向けた調査
Towards Scalable Automated Alignment of LLMs: A Survey ( http://arxiv.org/abs/2406.01252v3 ) ライセンス: Link先を確認 | Boxi Cao, Keming Lu, Xinyu Lu, Jiawei Chen, Mengjie Ren, Hao Xiang, Peilin Liu, Yaojie Lu, Ben He, Xianpei Han, Le Sun, Hongyu Lin, Bowen Yu, | (参考訳) アライメントは、人間のニーズを満たす大規模言語モデル(LLM)を構築する上で最も重要なステップである。
LLMの急速な開発が徐々に人間の能力を超えていく中、人間のアノテーションに基づく従来のアライメント手法は、スケーラビリティの要求を満たすことができなくなっている。
そのため、自動アライメント信号と技術的アプローチの新たな源を探究する必要がある。
本稿では,最近の自動化アライメントの手法を体系的に検討し,LLMの能力が人間の能力を超えれば,効果的でスケーラブルで自動化アライメントを実現する方法について検討する。
具体的には、既存の自動アライメント手法をアライメント信号の源泉に基づく4つの主要なカテゴリに分類し、各カテゴリの現状と潜在的な発展について論じる。
さらに、自動アライメントを可能にするメカニズムについて検討し、アライメントの基本的役割から自動化アライメント技術を実現可能かつ効果的にするための重要な要因について議論する。
Alignment is the most critical step in building large language models (LLMs) that meet human needs. With the rapid development of LLMs gradually surpassing human capabilities, traditional alignment methods based on human-annotation are increasingly unable to meet the scalability demands. Therefore, there is an urgent need to explore new sources of automated alignment signals and technical approaches. In this paper, we systematically review the recently emerging methods of automated alignment, attempting to explore how to achieve effective, scalable, automated alignment once the capabilities of LLMs exceed those of humans. Specifically, we categorize existing automated alignment methods into 4 major categories based on the sources of alignment signals and discuss the current status and potential development of each category. Additionally, we explore the underlying mechanisms that enable automated alignment and discuss the essential factors that make automated alignment technologies feasible and effective from the fundamental role of alignment. | 翻訳日:2024-09-04 18:00:58 公開日:2024-09-03 |
# K-12教育における学習・指導へのアンパック的アプローチ--透明性・倫理・デザイン活動
Unpacking Approaches to Learning and Teaching Machine Learning in K-12 Education: Transparency, Ethics, and Design Activities ( http://arxiv.org/abs/2406.03480v3 ) ライセンス: Link先を確認 | Luis Morales-Navarro, Yasmin B. Kafai, | (参考訳) 本稿では、人工知能/機械学習(AI/ML)教育に関する既存の文献をレビューし、機械学習の学習と教育を概念化するための3つのアプローチを特定する。
その1つは、データ駆動アプローチであり、若者にデータセットを作成し、トレーニングし、テストする機会を提供することを強調している。
アルゴリズム駆動学習の第2のアプローチは、機械学習モデルの背後にある学習アルゴリズムやエンジンの動作に関する学習を優先するものだ。
さらに,前2つを統合する第3のアプローチの取り組みも確認する。
本レビューでは,(1)MLの異なる側面のガラスボックスとブラックボックス,(2)学習者の興味に基づいて構築し,アプリケーション設計の機会を提供する,(3)倫理と正義を統合する,といったアプローチに注目した。
議論では、現在のアプローチの課題と機会に対処し、学習活動の設計に向けた今後の方向性を提案する。
In this conceptual paper, we review existing literature on artificial intelligence/machine learning (AI/ML) education to identify three approaches to how learning and teaching ML could be conceptualized. One of them, a data-driven approach, emphasizes providing young people with opportunities to create data sets, train, and test models. A second approach, learning algorithm-driven, prioritizes learning about how the learning algorithms or engines behind how ML models work. In addition, we identify efforts within a third approach that integrates the previous two. In our review, we focus on how the approaches: (1) glassbox and blackbox different aspects of ML, (2) build on learner interests and provide opportunities for designing applications, (3) integrate ethics and justice. In the discussion, we address the challenges and opportunities of current approaches and suggest future directions for the design of learning activities. | 翻訳日:2024-09-04 18:00:58 公開日:2024-09-03 |
# LLMの低域量子化学習
Low-Rank Quantization-Aware Training for LLMs ( http://arxiv.org/abs/2406.06385v3 ) ライセンス: Link先を確認 | Yelysei Bondarenko, Riccardo Del Chiaro, Markus Nagel, | (参考訳) 大規模言語モデル(LLM)は、一様だが、計算とメモリの需要がますます増大しているため、その実践的な展開は困難である。
量子化は、より計算とメモリを効率的にするための最も効果的な方法の1つである。
量子化対応トレーニング(QAT)法は、一般的に最高の量子化性能を生み出すが、潜在的に長時間のトレーニング時間と過剰なメモリ使用のコストが伴うため、LLMに適用する場合は実用的ではない。
LLMのための軽量かつメモリ効率のQATアルゴリズムであるLR-QATを提案する。
LR-QATは、予測性能を犠牲にすることなく、メモリを保存するためにいくつかのコンポーネントを使用します。
(a)量子化グリッドを意識した低ランク補助重量
(b)固定点または二重パッケージ整数を用いたダウンキャスト演算子
(c)チェックポイント。
ほとんどの関連作品と異なり、我々の方法
i) 推論効率が良く,従来のPTQと比較してオーバーヘッドが増加しない。
(ii)は,一般的な拡張事前訓練フレームワークとみなすことができる。
(iii) は、様々な選択の量子化の粒度、アクティベーションの量子化、多くのPTQ技術とシームレスに結合するなど、幅広い量子化設定に適用できる。
LR-QATをLLaMA-1/2/3およびMistralモデルファミリーに適用し、複数の下流タスクにおいて有効性を検証する。
提案手法は、PTQ(Common-training Quantization)アプローチよりも優れ、メモリ使用率のごく一部でフルモデルQATと同じモデル性能に達する。
具体的には、24GBのメモリを持つ1つのコンシューマグレードGPU上で7B LLMをトレーニングすることができる。
ソースコードはhttps://github.com/qualcomm-ai-research/LR-QATで公開されています。
Large language models (LLMs) are omnipresent, however their practical deployment is challenging due to their ever increasing computational and memory demands. Quantization is one of the most effective ways to make them more compute and memory efficient. Quantization-aware training (QAT) methods, generally produce the best quantized performance, however it comes at the cost of potentially long training time and excessive memory usage, making it impractical when applying for LLMs. Inspired by parameter-efficient fine-tuning (PEFT) and low-rank adaptation (LoRA) literature, we propose LR-QAT -- a lightweight and memory-efficient QAT algorithm for LLMs. LR-QAT employs several components to save memory without sacrificing predictive performance: (a) low-rank auxiliary weights that are aware of the quantization grid; (b) a downcasting operator using fixed-point or double-packed integers and (c) checkpointing. Unlike most related work, our method (i) is inference-efficient, leading to no additional overhead compared to traditional PTQ; (ii) can be seen as a general extended pretraining framework, meaning that the resulting model can still be utilized for any downstream task afterwards; (iii) can be applied across a wide range of quantization settings, such as different choices quantization granularity, activation quantization, and seamlessly combined with many PTQ techniques. We apply LR-QAT to LLaMA-1/2/3 and Mistral model families and validate its effectiveness on several downstream tasks. Our method outperforms common post-training quantization (PTQ) approaches and reaches the same model performance as full-model QAT at the fraction of its memory usage. Specifically, we can train a 7B LLM on a single consumer grade GPU with 24GB of memory. Our source code is available at https://github.com/qualcomm-ai-research/LR-QAT | 翻訳日:2024-09-04 17:51:09 公開日:2024-09-03 |
# OccamLLM: 高速かつエクササイズな言語モデル
OccamLLM: Fast and Exact Language Model Arithmetic in a Single Step ( http://arxiv.org/abs/2406.06576v4 ) ライセンス: Link先を確認 | Owen Dugan, Donato Manuel Jimenez Beneto, Charlotte Loh, Zhuo Chen, Rumen Dangovski, Marin Soljačić, | (参考訳) テキスト生成と推論の大幅な進歩にもかかわらず、Large Language Models (LLM) は複雑な算術演算を正確に実行する際の課題に直面している。
言語モデルシステムでは、LLMが算術演算のためのコードを生成して正確な計算をすることができる。
しかし、このアプローチはスピードとセキュリティを損なうため、微調整は言語モデルが事前の能力を失うリスクを負う。
本研究では,1つの自己回帰ステップで正確な算術を実現できるフレームワークを提案し,より高速で,よりセキュアで,より解釈可能なLLMシステムを実現する。
我々は LLM の隠蔽状態を用いて演算を行う記号的アーキテクチャを制御する。
シンボリックモデル(OccamLlama)としてOccamNetを用いたLlama 3の実装は、単算術演算(+,-,\times,\div,\sin{},\cos{},\log{},\exp{},\sqrt{}$)において100\%の精度を実現し、GPT 4oをコードインタープリタなしで上回ります。
さらに、OccamLlamaはGPT 4oよりもパフォーマンスが優れており、多くの数学的な問題解決ベンチマークでコードインタプリタを平均で使用し、OccamLLMsが算術的なタスクに優れ、はるかに大きなモデルを超えていることを実証している。
私たちはすぐにコードを公開します。
Despite significant advancements in text generation and reasoning, Large Language Models (LLMs) still face challenges in accurately performing complex arithmetic operations. Language model systems often enable LLMs to generate code for arithmetic operations to achieve accurate calculations. However, this approach compromises speed and security, and fine-tuning risks the language model losing prior capabilities. We propose a framework that enables exact arithmetic in a single autoregressive step, providing faster, more secure, and more interpretable LLM systems with arithmetic capabilities. We use the hidden states of a LLM to control a symbolic architecture that performs arithmetic. Our implementation using Llama 3 with OccamNet as a symbolic model (OccamLlama) achieves 100\% accuracy on single arithmetic operations ($+,-,\times,\div,\sin{},\cos{},\log{},\exp{},\sqrt{}$), outperforming GPT 4o with and without a code interpreter. Furthermore, OccamLlama outperforms GPT 4o with and without a code interpreter on average across a range of mathematical problem solving benchmarks, demonstrating that OccamLLMs can excel in arithmetic tasks, even surpassing much larger models. We will make our code public shortly. | 翻訳日:2024-09-04 17:51:09 公開日:2024-09-03 |
# 言語モデルにおける基本的トレードオフと適応子サンプリングとの関係
A Fundamental Trade-off in Aligned Language Models and its Relation to Sampling Adaptors ( http://arxiv.org/abs/2406.10203v2 ) ライセンス: Link先を確認 | Naaman Tan, Josef Valvoda, Tianyu Liu, Anej Svete, Yanxia Qin, Kan Min-Yen, Ryan Cotterell, | (参考訳) 人間の読み手によって判断される文字列の品質と、その確率の関係は、言語モデルの下で$p(\boldsymbol{y})$である。
例えば、言語モデルからサンプリングするための多くの一般的なアルゴリズムは、人間が高品質とみなす文字列に高い確率を置くために$p(\boldsymbol{y})$を操作することを目標に考案されている。
本稿では,人間の嗜好に明示的に適合する言語モデルにおける確率-品質関係について,人間のフィードバックによる強化学習を通して検討する。
整列した言語モデルからコーパスをサンプリングする場合,従来の言語モデルの下では,文字列の平均報酬と平均ログ類似度との間にトレードオフがあること,すなわち,人間の好みに合わせる前に同じモデルが存在することを示す。
我々は、この現象を形式的に処理し、サンプリングアダプタの選択が、どれだけの確率で報酬を交換できるかを選択できるかを実証する。
The relationship between the quality of a string, as judged by a human reader, and its probability, $p(\boldsymbol{y})$ under a language model undergirds the development of better language models. For example, many popular algorithms for sampling from a language model have been conceived with the goal of manipulating $p(\boldsymbol{y})$ to place higher probability on strings that humans deem of high quality. In this article, we examine the probability--quality relationship in language models explicitly aligned to human preferences, e.g., through reinforcement learning through human feedback. We show that, when sampling corpora from an aligned language model, there exists a trade-off between the strings' average reward and average log-likelihood under the prior language model, i.e., the same model before alignment with human preferences. We provide a formal treatment of this phenomenon and demonstrate how a choice of sampling adaptor allows for a selection of how much likelihood we exchange for the reward. | 翻訳日:2024-09-04 17:51:09 公開日:2024-09-03 |
# レジストレーター:全軸注意とプロンプト誘導による多変量除去
Restorer: Removing Multi-Degradation with All-Axis Attention and Prompt Guidance ( http://arxiv.org/abs/2406.12587v2 ) ライセンス: Link先を確認 | Jiawei Mao, Juncheng Wu, Yuyin Zhou, Xuesong Yin, Yuanqi Chang, | (参考訳) 画像復元には多くの優れた解法があるが、既存のオールインワンモデルでは、複数の種類の画像の分解を同時に処理するが、実際のシナリオにおけるそれらのパフォーマンスは、依然としてタスク混乱問題によって制約されている。本研究では、トランスフォーマーベースの新しいオールインワン画像復元モデルである \textbf{restorer} を導入して、この問題に対処しようとしている。
これらのプロンプトを反復することで、Restorerは、追加のトレーニングを必要とせずに、現実世界のシナリオにおける複合的な劣化を処理できる。これらの設計に基づいて、Restorerは、既存のオールインワンモデルやシングルタスクモデルと比較して、複数の画像復元タスクにおいて、最先端のパフォーマンスを示す。さらに、Restorerは推論時に効率的であり、実際のアプリケーションの可能性を示している。
There are many excellent solutions in image restoration.However, most methods require on training separate models to restore images with different types of degradation.Although existing all-in-one models effectively address multiple types of degradation simultaneously, their performance in real-world scenarios is still constrained by the task confusion problem.In this work, we attempt to address this issue by introducing \textbf{Restorer}, a novel Transformer-based all-in-one image restoration model.To effectively address the complex degradation present in real-world images, we propose All-Axis Attention (AAA), a mechanism that simultaneously models long-range dependencies across both spatial and channel dimensions, capturing potential correlations along all axes.Additionally, we introduce textual prompts in Restorer to incorporate explicit task priors, enabling the removal of specific degradation types based on user instructions. By iterating over these prompts, Restorer can handle composite degradation in real-world scenarios without requiring additional training.Based on these designs, Restorer with one set of parameters demonstrates state-of-the-art performance in multiple image restoration tasks compared to existing all-in-one and even single-task models.Additionally, Restorer is efficient during inference, suggesting the potential in real-world applications. | 翻訳日:2024-09-04 17:41:09 公開日:2024-09-03 |
# FairX: フェアネス、ユーティリティ、説明可能性を用いたモデル解析のための総合的なベンチマークツール
FairX: A comprehensive benchmarking tool for model analysis using fairness, utility, and explainability ( http://arxiv.org/abs/2406.14281v4 ) ライセンス: Link先を確認 | Md Fahim Sikder, Resmi Ramachandranpillai, Daniel de Leng, Fredrik Heintz, | (参考訳) FairXはオープンソースのPythonベースのベンチマークツールで、フェアネス、ユーティリティ、eXplainability(XAI)という傘の下で、モデルを包括的に分析するように設計されています。
FairXは、ベンチマークバイアス緩和モデルをトレーニングし、さまざまな公正度メトリクス、データユーティリティメトリクスを使用して公正性を評価し、統一されたフレームワーク内でモデル予測の説明を生成することを可能にする。
既存のベンチマークツールには、公正な生成モデルから生成された合成データを評価する方法はなく、公正な生成モデルのトレーニングもサポートしていない。
FairXでは、フェアモデルライブラリ(前処理、内処理、後処理)のコレクションに公正な生成モデルを加え、合成フェアデータの品質を評価するための評価指標を加えます。
このバージョンのFairXは、表と画像の両方のデータセットをサポートする。
また、ユーザーは独自のカスタムデータセットを提供することもできる。
オープンソースのFairXベンチマークパッケージは、 \url{https://github.com/fahim-sikder/FairX}で公開されている。
We present FairX, an open-source Python-based benchmarking tool designed for the comprehensive analysis of models under the umbrella of fairness, utility, and eXplainability (XAI). FairX enables users to train benchmarking bias-mitigation models and evaluate their fairness using a wide array of fairness metrics, data utility metrics, and generate explanations for model predictions, all within a unified framework. Existing benchmarking tools do not have the way to evaluate synthetic data generated from fair generative models, also they do not have the support for training fair generative models either. In FairX, we add fair generative models in the collection of our fair-model library (pre-processing, in-processing, post-processing) and evaluation metrics for evaluating the quality of synthetic fair data. This version of FairX supports both tabular and image datasets. It also allows users to provide their own custom datasets. The open-source FairX benchmarking package is publicly available at \url{https://github.com/fahim-sikder/FairX}. | 翻訳日:2024-09-04 17:41:09 公開日:2024-09-03 |
# DocKylin: 効率的なビジュアルスライミングによる視覚文書理解のための大規模マルチモーダルモデル
DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming ( http://arxiv.org/abs/2406.19101v2 ) ライセンス: Link先を確認 | Jiaxin Zhang, Wentao Yang, Songxuan Lai, Zecheng Xie, Lianwen Jin, | (参考訳) 現在のマルチモーダル大言語モデル(MLLM)は、高解像度、高密度テキスト、文書イメージに典型的な複雑なレイアウトのために、視覚的文書理解(VDU)タスクにおいて重大な課題に直面している。
これらの特徴は、MLLMから高いレベルの詳細認識能力を必要とする。
入力解像度の増大は、ディテール知覚能力を向上させる一方で、視覚トークンの長いシーケンスをもたらし、計算コストを増大させ、長いコンテキストを扱うモデルの能力を歪ませる。
これらの課題に対処するために,文書中心のMLLMであるDocKylinを紹介した。
本稿では,アダプティブ・ピクセル・スライミング(APS)プリプロセッシング・モジュールを導入し,画素レベルのスライミングを行う。
さらに、トークンレベルのスリム化を行い、重要なトークンをフィルタリングし、他のトークンを取り除き、よりコンパクトなビジュアルシーケンスを適応的に作成するための新しい動的トークンスライミング(DTS)モジュールを提案する。
実験では、さまざまなVDUベンチマークにおけるDocKylinの有望なパフォーマンスと、各コンポーネントの有効性が示されている。
Current multimodal large language models (MLLMs) face significant challenges in visual document understanding (VDU) tasks due to the high resolution, dense text, and complex layouts typical of document images. These characteristics demand a high level of detail perception ability from MLLMs. While increasing input resolution improves detail perception capability, it also leads to longer sequences of visual tokens, increasing computational costs and straining the models' ability to handle long contexts. To address these challenges, we introduce DocKylin, a document-centric MLLM that performs visual content slimming at both the pixel and token levels, thereby reducing token sequence length in VDU scenarios. We introduce an Adaptive Pixel Slimming (APS) preprocessing module to perform pixel-level slimming, increasing the proportion of informative pixels. Moreover, we propose a novel Dynamic Token Slimming (DTS) module to conduct token-level slimming, filtering essential tokens and removing others to adaptively create a more compact visual sequence. Experiments demonstrate DocKylin's promising performance across various VDU benchmarks and the effectiveness of each component. | 翻訳日:2024-09-04 17:31:13 公開日:2024-09-03 |
# CoOMBE:オプティカルブロッホ方程式とマクスウェル・ブロッホ方程式の統合のための一連のオープンソースプログラム
CoOMBE: A suite of open-source programs for the integration of the optical Bloch equations and Maxwell-Bloch equations ( http://arxiv.org/abs/2406.19144v2 ) ライセンス: Link先を確認 | R M Potvliege, S A Wrathmall, | (参考訳) 本稿では,(1)レーザーまたはマイクロ波場によって駆動される原子系の量子状態を表す密度行列の時間発展を規定する光学的ブロッホ方程式と(2)原子蒸気に共伝播する1つまたは2つのレーザー場に対する1次元マクスウェル・ブロッホ方程式を統合することを目的とした。
回転波近似を仮定する。
これらのプログラムはリンドブラッドマスター方程式によって支配されるより一般的な量子力学系にも利用できる。
Fortran 90で書かれているが、Fortranプログラミングの知識は必要ない。
また、レート方程式における光ブロッホ方程式の解法、定常密度行列の計算、弱プローブ近似における光ブロッホ方程式の定式化についても述べる。
The programs described in this article and distributed with it aim (1) at integrating the optical Bloch equations governing the time evolution of the density matrix representing the quantum state of an atomic system driven by laser or microwave fields, and (2) at integrating the 1D Maxwell-Bloch equations for one or two laser fields co-propagating in an atomic vapour. The rotating wave approximation is assumed. These programs can also be used for more general quantum dynamical systems governed by the Lindblad master equation. They are written in Fortran 90; however, their use does not require any knowledge of Fortran programming. Methods for solving the optical Bloch equations in the rate equations limit, for calculating the steady-state density matrix and for formulating the optical Bloch equations in the weak probe approximation are also described. | 翻訳日:2024-09-04 17:31:13 公開日:2024-09-03 |
# PROZE: 実行時データによるパラメータ化ユニットテストの生成
PROZE: Generating Parameterized Unit Tests Informed by Runtime Data ( http://arxiv.org/abs/2407.00768v2 ) ライセンス: Link先を確認 | Deepika Tiwari, Yogya Gamage, Martin Monperrus, Benoit Baudry, | (参考訳) 通常、従来の単体テスト(CUT)は、1つの特定の入力/出力ペアを通して、テスト中の単体が期待する振る舞いを検証する。
対照的に、パラメータ化された単体テスト(PUT)は、一連の入力を引数として受け取り、これらすべての入力に対して真であると予想されるアサーションを含む。
PUTは、入力と振る舞いの広い範囲で正確性を評価することで、テスト品質を向上します。
しかし、一連のインプットに対してアサーションを定義することは開発者にとって難しい作業であり、実際にはPUTの採用を制限する。
本稿では,複数の入力を保持するPUTのオーラクルを見つける問題に対処する。
我々は,複数のテスト入力に対して有効な開発者記述アサーションを識別し,PUTを生成するPROZEと呼ばれるシステムの設計を行う。
まず、実行時に、CUT内で呼び出されるターゲットメソッドのインプットを収集します。次に、PUT内で使用されるCUTの有効なアサーションを分離します。
実世界の5つのJavaモジュールに対する我々のアプローチを評価し、テストおよびフィールド実行から128のターゲットメソッドに対して有効な入力を収集する。
我々は2,287個のPUTを生成し、ターゲットメソッドを元のCUTよりもはるかに多くのテスト入力で呼び出す。
PUTを実行し、開発者が想定するよりも広い範囲の入力をオーラクルが保持していることを示す217を見つけます。
テスト理論の観点からは、開発者は特定の入力を1つに抑えるのに十分一般的なCUT内でのアサーションを表現している。
Typically, a conventional unit test (CUT) verifies the expected behavior of the unit under test through one specific input / output pair. In contrast, a parameterized unit test (PUT) receives a set of inputs as arguments, and contains assertions that are expected to hold true for all these inputs. PUTs increase test quality, as they assess correctness on a broad scope of inputs and behaviors. However, defining assertions over a set of inputs is a hard task for developers, which limits the adoption of PUTs in practice. In this paper, we address the problem of finding oracles for PUTs that hold over multiple inputs. We design a system called PROZE, that generates PUTs by identifying developer-written assertions that are valid for more than one test input. We implement our approach as a two-step methodology: first, at runtime, we collect inputs for a target method that is invoked within a CUT; next, we isolate the valid assertions of the CUT to be used within a PUT. We evaluate our approach against 5 real-world Java modules, and collect valid inputs for 128 target methods from test and field executions. We generate 2,287 PUTs, which invoke the target methods with a significantly larger number of test inputs than the original CUTs. We execute the PUTs and find 217 that provably demonstrate that their oracles hold for a larger range of inputs than envisioned by the developers. From a testing theory perspective, our results show that developers express assertions within CUTs that are general enough to hold beyond one particular input. | 翻訳日:2024-09-04 17:31:13 公開日:2024-09-03 |
# テクニックの洪水と理論の干ばつ:災害時の感情マイニング
Flood of Techniques and Drought of Theories: Emotion Mining in Disasters ( http://arxiv.org/abs/2407.05219v3 ) ライセンス: Link先を確認 | Soheil Shapouri, Saber Soleymani, Saed Rezayi, | (参考訳) 感情のマイニングは、災害時の人間の感情を理解するための重要なツールとなり、ソーシャルメディアプラットフォーム上で生成された広範囲なデータを活用する。
本稿では,災害状況における感情のマイニングに関する既存の研究を要約し,重要な発見と永続的な問題の両方を強調することを目的とする。
一方、感情のマイニング技術は、迅速な被害評価やメンタルヘルス監視といった適用を可能にするため、許容できる精度を実現している。
一方、データ駆動アプローチを採用する多くの研究において、いくつかの方法論的な問題が残されている。
これには、任意の感情分類、ソーシャルメディアからのデータ収集に固有のバイアスを無視すること、例えばTwitter上の社会経済的地位から個人を過剰に表現すること、異文化間比較のような理論的枠組みの適用の欠如などが含まれる。
これらの問題は、理論駆動研究の顕著な欠如と、社会科学や行動科学からの洞察を無視していると要約できる。
本稿では,コンピュータ科学者と社会科学者の学際的な連携の必要性を浮き彫りにした。
これらのギャップに対処することで、感情のマイニング手法の有効性と信頼性を高め、最終的に災害対策、対応、復旧に寄与することを目指している。
キーワード:感情のマイニング、感情分析、自然災害、心理学、技術的災害
Emotion mining has become a crucial tool for understanding human emotions during disasters, leveraging the extensive data generated on social media platforms. This paper aims to summarize existing research on emotion mining within disaster contexts, highlighting both significant discoveries and persistent issues. On the one hand, emotion mining techniques have achieved acceptable accuracy enabling applications such as rapid damage assessment and mental health surveillance. On the other hand, with many studies adopting data-driven approaches, several methodological issues remain. These include arbitrary emotion classification, ignoring biases inherent in data collection from social media, such as the overrepresentation of individuals from higher socioeconomic status on Twitter, and the lack of application of theoretical frameworks like cross-cultural comparisons. These problems can be summarized as a notable lack of theory-driven research and ignoring insights from social and behavioral sciences. This paper underscores the need for interdisciplinary collaboration between computer scientists and social scientists to develop more robust and theoretically grounded approaches in emotion mining. By addressing these gaps, we aim to enhance the effectiveness and reliability of emotion mining methodologies, ultimately contributing to improved disaster preparedness, response, and recovery. Keywords: emotion mining, sentiment analysis, natural disasters, psychology, technological disasters | 翻訳日:2024-09-04 17:31:13 公開日:2024-09-03 |
# 等方性制約を用いた分布ロバストなリスク評価
Distributionally robust risk evaluation with an isotonic constraint ( http://arxiv.org/abs/2407.06867v2 ) ライセンス: Link先を確認 | Yu Gui, Rina Foygel Barber, Cong Ma, | (参考訳) 分布シフトによる統計的学習は、事前の知識も、対象の分布から完全にアクセス可能なデータも利用できない場合には困難である。
分散ロバスト学習(DRL)は、不確実な分布の集合内で最悪の統計的性能を制御することを目的としているが、その集合を適切に特定する方法は依然として難しい。
本稿では,分布のロバスト性に過度な保守性を持たせるために,未知のターゲット分布と推定値との相違点に関する事前情報を組み込んだDRLの形状制約型アプローチを提案する。
より具体的には、対象分布と推定値の間の未知密度比が、ある部分順序に関して等方性であると仮定する。
人口レベルでは、等方性制約を含まない形状制約最適化問題の解を提供する。
サンプルレベルでは、異なる設定で対象の実証的推定器に対して一貫性のある結果を提供する。
合成データと実データの両方に関する実証研究は、提案した形状制約手法の精度の向上を実証している。
Statistical learning under distribution shift is challenging when neither prior knowledge nor fully accessible data from the target distribution is available. Distributionally robust learning (DRL) aims to control the worst-case statistical performance within an uncertainty set of candidate distributions, but how to properly specify the set remains challenging. To enable distributional robustness without being overly conservative, in this paper, we propose a shape-constrained approach to DRL, which incorporates prior information about the way in which the unknown target distribution differs from its estimate. More specifically, we assume the unknown density ratio between the target distribution and its estimate is isotonic with respect to some partial order. At the population level, we provide a solution to the shape-constrained optimization problem that does not involve the isotonic constraint. At the sample level, we provide consistency results for an empirical estimator of the target in a range of different settings. Empirical studies on both synthetic and real data examples demonstrate the improved accuracy of the proposed shape-constrained approach. | 翻訳日:2024-09-04 17:21:21 公開日:2024-09-03 |
# SUMix: セマンティック情報と不確実情報との混成
SUMix: Mixup with Semantic and Uncertain Information ( http://arxiv.org/abs/2407.07805v3 ) ライセンス: Link先を確認 | Huafeng Qin, Xin Jin, Hongyu Zhu, Hongchao Liao, Mounîm A. El-Yacoubi, Xinbo Gao, | (参考訳) ディープニューラルネットワークの一般化能力を改善するために、様々なディープラーニングタスクにミックスアップデータ拡張アプローチが適用されている。
CutMixやSaliencyMixなど、既存のアプローチでは、あるイメージのパッチを別のイメージのパッチにランダムに置き換えて、混合イメージを生成する。
同様に、対応するラベルは、固定比$\lambda$ by lで線形に結合される。
2つの画像中のオブジェクトは混合プロセス中に重複する可能性があるため、混合サンプルで意味情報が破損する。
この場合、混合画像は混合ラベル情報と一致しない。
さらに、このようなラベルはディープラーニングモデルのトレーニングを誤解させ、結果としてパフォーマンスが低下する可能性がある。
そこで我々は,SUMixという新しい手法を提案し,混合率と混合試料の不確かさを学習した。
まず、正確な混合比を計算するために、学習可能な類似度関数を設計する。
第2に,混合試料の不確かさをモデル化するための正規化用語としてアプローチを検討する。
我々は5つの画像ベンチマーク実験を行い、その実験結果から、異なるカットベース混合手法による分類器の性能向上が可能であることが示唆された。
ソースコードはhttps://github.com/JinXins/SUMix.comで入手できる。
Mixup data augmentation approaches have been applied for various tasks of deep learning to improve the generalization ability of deep neural networks. Some existing approaches CutMix, SaliencyMix, etc. randomly replace a patch in one image with patches from another to generate the mixed image. Similarly, the corresponding labels are linearly combined by a fixed ratio $\lambda$ by l. The objects in two images may be overlapped during the mixing process, so some semantic information is corrupted in the mixed samples. In this case, the mixed image does not match the mixed label information. Besides, such a label may mislead the deep learning model training, which results in poor performance. To solve this problem, we proposed a novel approach named SUMix to learn the mixing ratio as well as the uncertainty for the mixed samples during the training process. First, we design a learnable similarity function to compute an accurate mix ratio. Second, an approach is investigated as a regularized term to model the uncertainty of the mixed samples. We conduct experiments on five image benchmarks, and extensive experimental results imply that our method is capable of improving the performance of classifiers with different cutting-based mixup approaches. The source code is available at https://github.com/JinXins/SUMix. | 翻訳日:2024-09-04 17:21:21 公開日:2024-09-03 |
# 固有状態熱化仮説における対角要素と対角要素のトレードオフ
The trade-off between diagonal and off-diagonal elements in the eigenstate thermalization hypothesis ( http://arxiv.org/abs/2407.08297v2 ) ライセンス: Link先を確認 | Zhiqiang Huang, | (参考訳) 固有状態熱化仮説 (ETH) の証明において, 局所可観測物質を中間量として用いた場合をバイパスするために, 可観測性に依存しない可観測測度を導入した。
本稿では,この測度と他のいくつかのETH測度との接続を,より自然な方法で確立する。
まず、この測度の対角的要素と対角的要素の間の普遍的なトレードオフ関係を示す。
次に、この議論を固有状態の典型性と平均可観測性に拡張する。
このトレードオフ関係は、外対角要素の指数的な成長が直接自己の値を抑制し、間接的に対角要素を抑圧することを明らかにする。
これは、ETHの基盤となる物理的なメカニズムについて、新たな視点を提供する。
最後に、一次元のイジングスピン鎖上の数値計算により、様々なトレードオフ関係を探索し、強いETHと弱いETHを考察する。
To bypass using local observables as intermediate quantities in proving the eigenstate thermalization hypothesis (ETH), we have introduced an observable-independent measure of distinguishability. In this paper, we establish the connection between this measure and several other ETH measures in a more natural way. We first demonstrate a universal trade-off relation between the diagonal and off-diagonal elements of the measure. We then extend this discussion to eigenstate typicality and the average observable. This trade-off relationship reveals that the exponential growth of off-diagonal elements directly suppresses their own values, as well as indirectly suppressing the diagonal elements. This provides a new perspective on the physical mechanisms underlying ETH. Finally, through numerical calculations on a one-dimensional Ising spin chain, we explore various trade-off relationships and examine strong and weak ETH. | 翻訳日:2024-09-04 17:21:21 公開日:2024-09-03 |
# PID加速時間差アルゴリズム
PID Accelerated Temporal Difference Algorithms ( http://arxiv.org/abs/2407.08803v2 ) ライセンス: Link先を確認 | Mark Bedaywi, Amin Rakhsha, Amir-massoud Farahmand, | (参考訳) 長い水平タスクは大きな割引係数を持ち、従来の強化学習(RL)アルゴリズムでは困難である。
価値反復(Value Iteration)や時間差分(TD)学習(TD)学習(TD)のようなアルゴリズムは、収束速度が遅く、これらのタスクでは非効率になる。
遷移分布が与えられると、PID VIが最近導入され、制御理論のアイデアを用いて価値反復の収束を加速した。
そこで本研究では,RL設定のためのPID TD LearningとPID Q-Learningアルゴリズムを導入する。
我々は,従来のTD学習と比較して,PID TD学習の収束とその加速に関する理論的解析を行う。
また、雑音の存在下でPIDゲインを適応させる手法を導入し、その効果を実証的に検証する。
Long-horizon tasks, which have a large discount factor, pose a challenge for most conventional reinforcement learning (RL) algorithms. Algorithms such as Value Iteration and Temporal Difference (TD) learning have a slow convergence rate and become inefficient in these tasks. When the transition distributions are given, PID VI was recently introduced to accelerate the convergence of Value Iteration using ideas from control theory. Inspired by this, we introduce PID TD Learning and PID Q-Learning algorithms for the RL setting, in which only samples from the environment are available. We give a theoretical analysis of the convergence of PID TD Learning and its acceleration compared to the conventional TD Learning. We also introduce a method for adapting PID gains in the presence of noise and empirically verify its effectiveness. | 翻訳日:2024-09-04 17:21:21 公開日:2024-09-03 |
# 3DGS.zip:3次元ガウス散乱圧縮法に関する調査
3DGS.zip: A survey on 3D Gaussian Splatting Compression Methods ( http://arxiv.org/abs/2407.09510v3 ) ライセンス: Link先を確認 | Milena T. Bagdasarian, Paul Knoll, Florian Barthel, Anna Hilsmann, Peter Eisert, Wieland Morgenstern, | (参考訳) 本稿では,3次元ガウススプラッティング圧縮法について,様々なベンチマークにおける統計的性能に着目して検討する。
本調査は,異なる圧縮手法の鍵となる統計データを表形式で要約することにより,可読性の向上を目的とする。
評価されたデータセットには、TurpsAndTemples、MipNeRF360、DeepBlending、SyntheticNeRFがある。
各手法について,各著者が提案するPak Signal-to-Noise Ratio (PSNR), Structure similarity Index (SSIM), Learned Perceptual Image Patch similarity (LPIPS), and the resultant size in megabytes (MB)について報告する。
これは進行中のオープンソースプロジェクトであり、GitHubの問題やプルリクエストとして、リサーチコミュニティからのコントリビューションを募集しています。
詳細はhttp://w-m.github.io/3dgs-compression-survey/を参照してください。
We present a work-in-progress survey on 3D Gaussian Splatting compression methods, focusing on their statistical performance across various benchmarks. This survey aims to facilitate comparability by summarizing key statistics of different compression approaches in a tabulated format. The datasets evaluated include TanksAndTemples, MipNeRF360, DeepBlending, and SyntheticNeRF. For each method, we report the Peak Signal-to-Noise Ratio (PSNR), Structural Similarity Index (SSIM), Learned Perceptual Image Patch Similarity (LPIPS), and the resultant size in megabytes (MB), as provided by the respective authors. This is an ongoing, open project, and we invite contributions from the research community as GitHub issues or pull requests. Please visit http://w-m.github.io/3dgs-compression-survey/ for more information and a sortable version of the table. | 翻訳日:2024-09-04 17:21:21 公開日:2024-09-03 |
# Webからの学習: セマンティックセグメンテーションのための言語駆動型インクリメンタルラーニング
Learning from the Web: Language Drives Weakly-Supervised Incremental Learning for Semantic Segmentation ( http://arxiv.org/abs/2407.13363v2 ) ライセンス: Link先を確認 | Chang Liu, Giulia Rizzoli, Pietro Zanuttigh, Fu Li, Yi Niu, | (参考訳) セマンティックセグメンテーション(WILSS)アプローチに対する現在の弱い教師付きインクリメンタルラーニングでは、ピクセルレベルのアノテーションをイメージレベルのラベルに置き換えることしか検討されていない。
本稿では,新しいクラスを学習するためにも,広く利用可能なWebイメージを考えることができる,と論じる。
まず、Fourier-based domain discriminatorを用いて、潜伏空間で以前見られた例に類似したWebイメージを選択する方法を提案する。
そこで,従来学習した授業を保存するために,効果的なキャプション駆動型リハビリテーション戦略を提案する。
我々の知る限り、これは新しい概念の学習とWILSSで既に学んだ概念の保存の両方のために、Webイメージにのみ依存する最初の作業である。
実験結果から,提案手法は段階的なステップで手動で選択したアノテートデータを用いることなく,最先端の性能に到達可能であることが示された。
Current weakly-supervised incremental learning for semantic segmentation (WILSS) approaches only consider replacing pixel-level annotations with image-level labels, while the training images are still from well-designed datasets. In this work, we argue that widely available web images can also be considered for the learning of new classes. To achieve this, firstly we introduce a strategy to select web images which are similar to previously seen examples in the latent space using a Fourier-based domain discriminator. Then, an effective caption-driven reharsal strategy is proposed to preserve previously learnt classes. To our knowledge, this is the first work to rely solely on web images for both the learning of new concepts and the preservation of the already learned ones in WILSS. Experimental results show that the proposed approach can reach state-of-the-art performances without using manually selected and annotated data in the incremental steps. | 翻訳日:2024-09-04 17:21:21 公開日:2024-09-03 |
# TeX生成文書の不整合性
Inconsistencies in TeX-Produced Documents ( http://arxiv.org/abs/2407.15511v2 ) ライセンス: Link先を確認 | Jovyn Tan, Manuel Rigger, | (参考訳) TeXは、ほとんどの出版社やプロ社会で広く使われているタイプセットシステムである。
TeXは相当数のドキュメントを生成する責任があるが、TeXエコシステムの不規則性は一貫性のないドキュメントを生成する可能性がある。
これらの矛盾は、異なるTeXエンジンまたは異なるバージョンのTeXディストリビューションで発生し、結果としてフォーマット仕様に従わなかったり、異なる著者に対して異なる方法で同じ文書がレンダリングされたりする。
本研究では,432文書の大規模研究を通じて,TeXエコシステムのロバスト性を調査し,定量化する。
我々は,TeXエコシステムのクロスエンジンおよびクロスバージョン互換性を評価する自動パイプラインを開発した。
XeTeXとPDFTeXで同じ出力にコンパイルされた文書のわずか0.2%は、一般的なLaTeXパッケージと学術会議で使用されるクラスでクロスエンジンサポートが欠如しているため、異なるTeXエンジンの出力に重大な矛盾があることがわかった。
より小さな$\unicode{x2014}$yet significant$\unicode{x2014}$extent of inconsistencys were found across different TeX Live distributions, with only 42.1% document creating the same output from 2020 to 2023。
10のユニークな根本原因のサンプルから、LaTeXパッケージに2つの新しいバグと、この調査とは独立して修正された5つの既存のバグを特定しました。
また、変更ログに記載された更新以外の、さまざまなTeX Liveディストリビューションにおける意図しない不整合も観測した。
我々は、この研究がTeXの文書作成者にとって、予想外の結果を避けるのに役立ち、TEXエコシステムのしばしば文書化されていない微妙さにどのように影響を受けるかを理解しながら、異なる実装が意図しない不整合をもたらすかを実証することで、開発者に利益をもたらすことを期待している。
TeX is a widely-used typesetting system adopted by most publishers and professional societies. While TeX is responsible for generating a significant number of documents, irregularities in the TeX ecosystem may produce inconsistent documents. These inconsistencies may occur across different TeX engines or different versions of TeX distributions, resulting in failures to adhere to formatting specifications, or the same document rendering differently for different authors. In this work, we investigate and quantify the robustness of the TeX ecosystem through a large-scale study of 432 documents. We developed an automated pipeline to evaluate the cross-engine and cross-version compatibility of the TeX ecosystem. We found significant inconsistencies in the outputs of different TeX engines: only 0.2% of documents compiled to identical output with XeTeX and PDFTeX due to a lack of cross-engine support in popular LaTeX packages and classes used in academic conferences. A smaller$\unicode{x2014}$yet significant$\unicode{x2014}$extent of inconsistencies was found across different TeX Live distributions, with only 42.1% of documents producing the same output from 2020 to 2023. Our automated pipeline additionally reduces the human effort in bug-finding: from a sample of 10 unique root causes of inconsistencies, we identified two new bugs in LaTeX packages and five existing bugs that were fixed independently of this study. We also observed potentially unintended inconsistencies across different TeX Live distributions beyond the updates listed in changelogs. We expect that this study will help authors of TeX documents to avoid unexpected outcomes by understanding how they may be affected by the often undocumented subtleties of the TeX ecosystem, while benefiting developers by demonstrating how different implementations result in unintended inconsistencies. | 翻訳日:2024-09-04 17:11:28 公開日:2024-09-03 |
# 熱赤外物体追跡のためのプログレッシブ領域適応
Progressive Domain Adaptation for Thermal Infrared Object Tracking ( http://arxiv.org/abs/2407.19430v2 ) ライセンス: Link先を確認 | Qiao Li, Kanlun Tan, Qiao Liu, Di Yuan, Xin Li, Yunpeng Liu, | (参考訳) 大規模ラベル付きサーモ赤外線(TIR)トレーニングデータセットが不足しているため、既存のTIRトラッカーのほとんどはRGBデータセットで直接トレーニングされている。
しかし、RGBデータセットでトレーニングされたトラッキング手法は、ドメインシフトの問題により、TIRデータの大幅な低下に悩まされる。
そこで本研究では,RGBトラッキングから学習した有用な知識をTIRトラッキングに転送する,TIR追跡のためのプログレッシブドメイン適応フレームワークを提案する。
このフレームワークは、大規模なTIRデータの時間と労働集約的なラベル付けを必要とせずに、大規模ラベル付きRGBデータセットをフル活用する。
具体的には,まず,機能レベルでの領域ギャップを粗く抑えるために,対向型グローバルドメイン適応モジュールを提案する。
第2に、クラスタリングに基づくサブドメイン適応法を設計し、RGBおよびTIRデータセットの特徴分布を微調整する。
これら2つのドメイン適応モジュールは、2つのドメイン間の相違を徐々に排除し、プログレッシブトレーニングを通じてドメイン不変のきめ細かい特徴を学習する。
さらに、提案したドメイン適応フレームワークをトレーニングするために、ラベルなしのTIRイメージが148万以上ある大規模なTIRデータセットを収集します。
5つのTIR追跡ベンチマーク実験の結果,提案手法は6%近い成功率を示し,その有効性を示した。
Due to the lack of large-scale labeled Thermal InfraRed (TIR) training datasets, most existing TIR trackers are trained directly on RGB datasets. However, tracking methods trained on RGB datasets suffer a significant drop-off in TIR data due to the domain shift issue. To this end, in this work, we propose a Progressive Domain Adaptation framework for TIR Tracking (PDAT), which transfers useful knowledge learned from RGB tracking to TIR tracking. The framework makes full use of large-scale labeled RGB datasets without requiring time-consuming and labor-intensive labeling of large-scale TIR data. Specifically, we first propose an adversarial-based global domain adaptation module to reduce domain gap on the feature level coarsely. Second, we design a clustering-based subdomain adaptation method to further align the feature distributions of the RGB and TIR datasets finely. These two domain adaptation modules gradually eliminate the discrepancy between the two domains, and thus learn domain-invariant fine-grained features through progressive training. Additionally, we collect a largescale TIR dataset with over 1.48 million unlabeled TIR images for training the proposed domain adaptation framework. Experimental results on five TIR tracking benchmarks show that the proposed method gains a nearly 6% success rate, demonstrating its effectiveness. | 翻訳日:2024-09-04 17:11:28 公開日:2024-09-03 |
# マイクロ粒子アレイのニューロモルフィック検出と冷却
Neuromorphic detection and cooling of microparticle arrays ( http://arxiv.org/abs/2408.00661v2 ) ライセンス: Link先を確認 | Yugang Ren, Benjamin Siegel, Ronghao Yin, Muddassar Rashid, James Millen, | (参考訳) 真空中で浮遊する微小物体は、その低散逸運動と量子レベルでの制御の可能性により、精密センシングのためのエキサイティングなプラットフォームである。
このようなセンサーの配列は、ノイズキャンセル、方向性、感度の向上、量子状態において相関と絡み合いを利用する可能性がある。
我々は、単一イベントベースカメラによるニューロモルフィック検出を用いて、浮動小球のアレイの動きを記録する。
本稿では,3つの物体の運動を同時に冷却するリアルタイムフィードバックを実装した,任意の多粒子制御のための真にスケーラブルな手法を提案する。
Micro-objects levitated in a vacuum are an exciting platform for precision sensing due to their low dissipation motion and the potential for control at the quantum level. Arrays of such sensors would allow noise cancellation, directionality, increased sensitivity and in the quantum regime the potential to exploit correlation and entanglement. We use neuromorphic detection via a single event-based camera to record the motion of an array of levitated microspheres. We present a truly scalable method for arbitrary multiparticle control by implementing real-time feedback to cool the motion of three objects simultaneously, the first demonstration of neuromorphic sensing for real-time control at the microscale. | 翻訳日:2024-09-04 17:01:34 公開日:2024-09-03 |
# コントラスト学習と抽象概念:自然数の場合
Contrastive Learning and Abstract Concepts: The Case of Natural Numbers ( http://arxiv.org/abs/2408.02247v4 ) ライセンス: Link先を確認 | Daniel N. Nissani, | (参考訳) 対照的学習(CL)は、ImageNetデータセットに含まれるオブジェクトなど、具体的な概念に関連する分類や下流タスクにうまく適用されている。
これまでのところ、より抽象的なエンティティにこの有望なスキームを適用する試みは行われていないようだ。
これらの顕著な例は、(離散的な)量の概念である。
CLはしばしば、深遠でユビキタスな保存原理(例えば、オブジェクト分類タスクにおけるアイデンティティの保存)によって導かれる自己教師型スキームとして解釈される。
この入門研究では、離散量の推定や予測が可能な自然数の半抽象概念に適切な保存原理を適用する。
実験により、おもちゃの問題により、対照的な学習は、人間でも超人的範囲でも高い精度で、一目で数えられるように訓練できることが示される。
と。
類似アーキテクチャのニューラルネットワークスキームを,一見教師付き学習(SL)のトレーニング・ツー・カウントの結果と比較した。
両スキームは, トレーニング段階と試験段階の分布が等しいベースライン実験において, 同様の性能を示すことを示す。
重要なことは、分散のトレーニングとテストが異なるいくつかの一般化シナリオにおいて、CLはより堅牢ではるかに優れたエラー性能を誇示している。
Contrastive Learning (CL) has been successfully applied to classification and other downstream tasks related to concrete concepts, such as objects contained in the ImageNet dataset. No attempts seem to have been made so far in applying this promising scheme to more abstract entities. A prominent example of these could be the concept of (discrete) Quantity. CL can be frequently interpreted as a self-supervised scheme guided by some profound and ubiquitous conservation principle (e.g. conservation of identity in object classification tasks). In this introductory work we apply a suitable conservation principle to the semi-abstract concept of natural numbers by which discrete quantities can be estimated or predicted. We experimentally show, by means of a toy problem, that contrastive learning can be trained to count at a glance with high accuracy both at human as well as at super-human ranges.. We compare this with the results of a trained-to-count at a glance supervised learning (SL) neural network scheme of similar architecture. We show that both schemes exhibit similar good performance on baseline experiments, where the distributions of the training and testing stages are equal. Importantly, we demonstrate that in some generalization scenarios, where training and testing distributions differ, CL boasts more robust and much better error performance. | 翻訳日:2024-09-04 17:01:34 公開日:2024-09-03 |
# 符号平滑化による復号-LPN削減の限界
Limitations of the decoding-to-LPN reduction via code smoothing ( http://arxiv.org/abs/2408.03742v2 ) ライセンス: Link先を確認 | Madhura Pathegama, Alexander Barg, | (参考訳) LPN問題(Learning Parity with Noise)は、いくつかの古典的な暗号プリミティブの根底にある問題である。
研究者は、線形符号の復号化問題から減算を試み、この問題のアルゴリズム的な難しさを証明しようと努力してきた。
以前の研究では、そのような削減を達成するために、コードの平滑化(code smoothing)という技術ツールを使用していた。
このことは、前向きなレートのコードで削減する、という疑問を解き放った。
本稿では,復号化問題とLPN問題のパラメータによる削減の効率を特徴付ける。
結論として,有意な還元が可能なパラメータ規則と,その存在が不可能なパラメータ規則を分離する。
The Learning Parity with Noise (LPN) problem underlies several classic cryptographic primitives. Researchers have endeavored to demonstrate the algorithmic difficulty of this problem by attempting to find a reduction from the decoding problem of linear codes, for which several hardness results exist. Earlier studies used code smoothing as a technical tool to achieve such reductions, showing that they are possible for codes with vanishing rate. This has left open the question of attaining a reduction with positive-rate codes. Addressing this case, we characterize the efficiency of the reduction in terms of the parameters of the decoding and LPN problems. As a conclusion, we isolate the parameter regimes for which a meaningful reduction is possible and the regimes for which its existence is unlikely. | 翻訳日:2024-09-04 17:01:34 公開日:2024-09-03 |
# Trncated Commutator を用いた主トロッター観測誤差
Principal Trotter Observation Error with Truncated Commutators ( http://arxiv.org/abs/2408.03891v2 ) ライセンス: Link先を確認 | Langyu Li, | (参考訳) ハミルトンシミュレーションは量子コンピュータの最も有望な応用の1つであり、積公式はこの目的のために最も重要な方法の1つである。
これまでの関連する作業は主に、最悪の$-$caseまたは平均$-$caseのシナリオに焦点を当ててきた。
本研究では, 一定の観測可能条件下でのシミュレーション誤差について考察する。
固定オブザーバブルの下では、このオブザーバブルで通勤するエラーはそれほど重要ではない。
この点を説明するために、観測誤差を観測可能の下での期待値として定義し、ベーカー$-$Campbell$-$Hausdorff公式を用いた可換性$-$ベース上限を与える。
高可換な可観測物の場合、この上限によって示されるシミュレーション誤差は著しく圧縮される。
ハイゼンベルクモデルを用いた実験では、観測境界は最近の通勤者境界と比べてトロッター数の半分近く圧縮する。
さらに, 進化系列が観察誤差に大きく影響していることが判明した。
シミュレーションアニーリングアルゴリズムを用いて,トラッター数のさらなる圧縮を実現するシーケンス最適化アルゴリズムを設計した。
水素分子ハミルトニアンの実験は、配列の最適化がトロッター数の約半分の減少につながることを示した。
Hamiltonian simulation is one of the most promising applications of quantum computers, and the product formula is one of the most important methods for this purpose. Previous related work has mainly focused on the worst$-$case or average$-$case scenarios. In this work, we consider the simulation error under a fixed observable. Under a fixed observable, errors that commute with this observable become less important. To illustrate this point, we define the observation error as the expectation under the observable and provide a commutativity$-$based upper bound using the Baker$-$Campbell$-$Hausdorff formula. For highly commuting observables, the simulation error indicated by this upper bound can be significantly compressed. In the experiment with the Heisenberg model, the observation bound compresses the Trotter number by nearly half compared to recent commutator bounds. Additionally, we found that the evolution sequence significantly affects the observation error. By utilizing a simulated annealing algorithm, we designed a sequence optimization algorithm, achieving further compression of the Trotter number. The experiment on the hydrogen molecule Hamiltonian demonstrates that optimizing the sequence can lead to nearly half the reduction in the Trotter number. | 翻訳日:2024-09-04 17:01:34 公開日:2024-09-03 |
# 非線形多スケール状態空間モデルにおけるベイズ学習
Bayesian Learning in a Nonlinear Multiscale State-Space Model ( http://arxiv.org/abs/2408.06425v6 ) ライセンス: Link先を確認 | Nayely Vélez-Cruz, Manfred D. Laubichler, | (参考訳) 複雑なシステムにおけるマルチスケール相互作用の普遍性はよく認識されており、発達と遺伝性は、異なる時間スケールのプロセスが相互にどのように影響するかを示す主要な例である。
この研究は、異なる時間スケールで相互作用するシステム間の動的相互作用を、各スケール間のフィードバックで探索する、新しいマルチスケール状態空間モデルを導入している。
本稿では,このマルチスケールモデルにおける未知のプロセスノイズ共分散を学習することにより,未知の状態の推定を行うためのベイズ学習フレームワークを提案する。
本研究では,提案手法の有効性をシミュレーションし,提案手法の有効性を実証するPGASアルゴリズムを開発した。
The ubiquity of multiscale interactions in complex systems is well-recognized, with development and heredity serving as a prime example of how processes at different temporal scales influence one another. This work introduces a novel multiscale state-space model to explore the dynamic interplay between systems interacting across different time scales, with feedback between each scale. We propose a Bayesian learning framework to estimate unknown states by learning the unknown process noise covariances within this multiscale model. We develop a Particle Gibbs with Ancestor Sampling (PGAS) algorithm for inference and demonstrate through simulations the efficacy of our approach. | 翻訳日:2024-09-04 16:51:50 公開日:2024-09-03 |
# クロスプラットフォームビデオパーソンReID:新しいベンチマークデータセットと適応アプローチ
Cross-Platform Video Person ReID: A New Benchmark Dataset and Adaptation Approach ( http://arxiv.org/abs/2408.07500v2 ) ライセンス: Link先を確認 | Shizhou Zhang, Wenlong Luo, De Cheng, Qingchun Yang, Lingyan Ran, Yinghui Xing, Yanning Zhang, | (参考訳) 本稿では,G2A-VReIDという,地上から地上までの映像に基づく人物再同定のための大規模ベンチマークデータセットを構築し,その特徴を2,788個の異なる特徴を持つ185,907の画像と5,576個のトラックレットからなる。
我々の知る限り、このデータセットは地上から地上までのシナリオ下でのビデオReIDのための最初のデータセットである。
G2A-VReIDデータセットには以下の特徴がある。
1) 劇的視点の変更
2) 注釈付きIDの数が多ければ多い。
3) 豊かな屋外シナリオ
4) 解像度の大きな差。
さらに、クロスプラットフォームの視覚アライメント問題から視覚言語モデル(CLIP)による視覚的セマンティックアライメントへと変換し、パラメータ効率のよいビデオセットレベルアダプタモジュールを適用して、画像ベース基盤モデルをビデオReIDタスクに適応させることにより、クロスプラットフォームReIDの新しいベンチマーク手法を提案する。
さらに、プラットフォーム間の大きな不一致をさらに軽減するために、効率的な視覚的特徴調整のためのプラットフォームブリッジプロンプトも考案しました。
提案手法が既存のビデオReIDデータセットおよび提案したG2A-VReIDデータセットに対して優れていることを示す。
In this paper, we construct a large-scale benchmark dataset for Ground-to-Aerial Video-based person Re-Identification, named G2A-VReID, which comprises 185,907 images and 5,576 tracklets, featuring 2,788 distinct identities. To our knowledge, this is the first dataset for video ReID under Ground-to-Aerial scenarios. G2A-VReID dataset has the following characteristics: 1) Drastic view changes; 2) Large number of annotated identities; 3) Rich outdoor scenarios; 4) Huge difference in resolution. Additionally, we propose a new benchmark approach for cross-platform ReID by transforming the cross-platform visual alignment problem into visual-semantic alignment through vision-language model (i.e., CLIP) and applying a parameter-efficient Video Set-Level-Adapter module to adapt image-based foundation model to video ReID tasks, termed VSLA-CLIP. Besides, to further reduce the great discrepancy across the platforms, we also devise the platform-bridge prompts for efficient visual feature alignment. Extensive experiments demonstrate the superiority of the proposed method on all existing video ReID datasets and our proposed G2A-VReID dataset. | 翻訳日:2024-09-04 16:42:00 公開日:2024-09-03 |
# 辞書とアテンション・マスキングによるレアワード翻訳の改善
Improving Rare Word Translation With Dictionaries and Attention Masking ( http://arxiv.org/abs/2408.09075v2 ) ライセンス: Link先を確認 | Kenneth J. Sible, David Chiang, | (参考訳) 機械翻訳において、レアワードはエンコーダ-デコーダアーキテクチャ、特に低リソースおよび外ドメイン翻訳設定における問題であり続けている。
人間翻訳者は、この問題をモノリンガル辞書やバイリンガル辞書で解決する。
本稿では、二言語辞書からソース文への追加定義を提案し、アテンションマスキングを用いて、希少単語とそれらの定義をリンクする。
稀な単語の定義を含むと、最大1.0BLEUと1.6MacroF1の性能が向上することがわかった。
In machine translation, rare words continue to be a problem for the dominant encoder-decoder architecture, especially in low-resource and out-of-domain translation settings. Human translators solve this problem with monolingual or bilingual dictionaries. In this paper, we propose appending definitions from a bilingual dictionary to source sentences and using attention masking to link together rare words with their definitions. We find that including definitions for rare words improves performance by up to 1.0 BLEU and 1.6 MacroF1. | 翻訳日:2024-09-04 16:42:00 公開日:2024-09-03 |
# 援助率を考慮した断続的直接指導に基づくディッシュリンクとスクラブの行動学習
Behavioral Learning of Dish Rinsing and Scrubbing based on Interruptive Direct Teaching Considering Assistance Rate ( http://arxiv.org/abs/2408.09360v2 ) ライセンス: Link先を確認 | Shumpei Wakabayashi, Kento Kawaharazuka, Kei Okada, Masayuki Inaba, | (参考訳) ロボットは安全で巧妙な方法で物体を操作することが期待されている。
例えば、皿を洗うことは、スポンジで皿をこすって水で洗うという豪華な作業である。
水をはねることなく、皿を落とすことなく安全に学ぶ必要がある。
本研究では,安全かつ巧妙な操作システムを提案する。
ロボットは、物体とロボット自体の状態と制御入力と、人間がロボットの手の最初の軌跡を割り込み直接指導によって補正した後に必要な人的援助の量(補助率)を推定することにより、物体の力学モデルを学ぶ。
取得したダイナミクスモデルを用いて、推定値と基準値との誤差を逆伝搬することにより、例えば、基準値に近づいた制御入力を生成することができ、例えば、人間の助けが不要で、皿が過度に動かない。
これにより、形状や性質が不明な皿を適応的に洗うことができる。
結果として、人的援助の少ない安全な行動を生成することができる。
Robots are expected to manipulate objects in a safe and dexterous way. For example, washing dishes is a dexterous operation that involves scrubbing the dishes with a sponge and rinsing them with water. It is necessary to learn it safely without splashing water and without dropping the dishes. In this study, we propose a safe and dexterous manipulation system. The robot learns a dynamics model of the object by estimating the state of the object and the robot itself, the control input, and the amount of human assistance required (assistance rate) after the human corrects the initial trajectory of the robot's hands by interruptive direct teaching. By backpropagating the error between the estimated and the reference value using the acquired dynamics model, the robot can generate a control input that approaches the reference value, for example, so that human assistance is not required and the dish does not move excessively. This allows for adaptive rinsing and scrubbing of dishes with unknown shapes and properties. As a result, it is possible to generate safe actions that require less human assistance. | 翻訳日:2024-09-04 16:42:00 公開日:2024-09-03 |
# Antidote: 有害な微調整に対する大規模言語モデルの修正後の安全性アライメント
Antidote: Post-fine-tuning Safety Alignment for Large Language Models against Harmful Fine-tuning ( http://arxiv.org/abs/2408.09600v2 ) ライセンス: Link先を確認 | Tiansheng Huang, Gautam Bhattacharya, Pratik Joshi, Josh Kimball, Ling Liu, | (参考訳) 安全性に配慮した大規模言語モデル(LLM)は、有害な微調整攻撃に対して脆弱である。
既存の緩和策としては、アライメントステージ解 \cite{huang2024vaccine, rosati2024representation} と微調整ステージ解 \cite{huang2024lazy,mukhoti2023fine} がある。
しかし, 評価の結果, 両ディフェンスのカテゴリは, 特定のトレーニングハイパーパラメータが選択された場合にフェールすることが明らかとなった。
この目的のために, 微調整後の段階解であるAntidoteを提案する。
解毒剤は、有害なパラメータを除去することで、有害なパラメータが微調整の段階でどのように形成されるかに関わらず、有害な振る舞いから有害なモデルを取り戻すことができるという哲学に依存している。
本哲学では,有害物質の発生の原因となる有害重量を除去するために,有害微調整後のワンショットプルーニングステージを導入する。
我々のプロジェクトページは \url{https://huangtiansheng.github.io/Antidote_gh_page/} にある。
Safety aligned Large Language Models (LLMs) are vulnerable to harmful fine-tuning attacks \cite{qi2023fine}-- a few harmful data mixed in the fine-tuning dataset can break the LLMs's safety alignment. Existing mitigation strategies include alignment stage solutions \cite{huang2024vaccine, rosati2024representation} and fine-tuning stage solutions \cite{huang2024lazy,mukhoti2023fine}. However, our evaluation shows that both categories of defenses fail \textit{when some specific training hyper-parameters are chosen} -- a large learning rate or a large number of training epochs in the fine-tuning stage can easily invalidate the defense, which however, is necessary to guarantee finetune performance. To this end, we propose Antidote, a post-fine-tuning stage solution, which remains \textbf{\textit{agnostic to the training hyper-parameters in the fine-tuning stage}}. Antidote relies on the philosophy that by removing the harmful parameters, the harmful model can be recovered from the harmful behaviors, regardless of how those harmful parameters are formed in the fine-tuning stage. With this philosophy, we introduce a one-shot pruning stage after harmful fine-tuning to remove the harmful weights that are responsible for the generation of harmful content. Despite its embarrassing simplicity, empirical results show that Antidote can reduce harmful score while maintaining accuracy on downstream tasks.Our project page is at \url{https://huangtiansheng.github.io/Antidote_gh_page/} | 翻訳日:2024-09-04 16:42:00 公開日:2024-09-03 |
# 不均一CPU-GPUシステムにおける信頼計算:調査と今後の方向性
Confidential Computing on Heterogeneous CPU-GPU Systems: Survey and Future Directions ( http://arxiv.org/abs/2408.11601v2 ) ライセンス: Link先を確認 | Qifan Wang, David Oswald, | (参考訳) 近年では、CPU、グラフィックス処理ユニット(GPU)、アプリケーション固有集積回路(ASIC)、フィールドプログラム可能なゲートアレイ(FPGA)といった複数のコンピューティングコアを統合する高性能な異種システムへの需要が高まっている。
CPUとGPUの組み合わせは、その汎用性から特に人気がある。
しかし、これらの異種システムは、セキュリティとプライバシーの重大なリスクに直面している。
プライバシ保護技術の進歩、特にハードウェアベースのTrusted Execution Environments(TEEs)は、GPUアプリケーションに対して効果的な保護を提供する。
それでも、異種システムにおけるTEEをGPUに拡張する際の潜在的なセキュリティリスクは不確実であり、さらなる調査が必要である。
これらのリスクを深く調査するため、既存のGPU TEE設計を調査し、その重要な意味を要約し、比較する。
さらに、これらの脅威を軽減するため、GPUや従来のTEEをCPUにデプロイする上で、既存の強力な攻撃についてレビューします。
我々は、GPU TEEによって導入された潜在的な攻撃面を特定し、セキュアなGPU TEEを設計するための重要な考慮事項について洞察を提供する。
この調査は異種システムの新しいTEE、特にGPUが開発され、潜在的なセキュリティ脅威を理解し、効率的かつセキュアなシステムを構築する必要性を強調している。
In recent years, the widespread informatization and rapid data explosion have increased the demand for high-performance heterogeneous systems that integrate multiple computing cores such as CPUs, Graphics Processing Units (GPUs), Application Specific Integrated Circuits (ASICs), and Field Programmable Gate Arrays (FPGAs). The combination of CPU and GPU is particularly popular due to its versatility. However, these heterogeneous systems face significant security and privacy risks. Advances in privacy-preserving techniques, especially hardware-based Trusted Execution Environments (TEEs), offer effective protection for GPU applications. Nonetheless, the potential security risks involved in extending TEEs to GPUs in heterogeneous systems remain uncertain and need further investigation. To investigate these risks in depth, we study the existing popular GPU TEE designs and summarize and compare their key implications. Additionally, we review existing powerful attacks on GPUs and traditional TEEs deployed on CPUs, along with the efforts to mitigate these threats. We identify potential attack surfaces introduced by GPU TEEs and provide insights into key considerations for designing secure GPU TEEs. This survey is timely as new TEEs for heterogeneous systems, particularly GPUs, are being developed, highlighting the need to understand potential security threats and build both efficient and secure systems. | 翻訳日:2024-09-04 16:32:02 公開日:2024-09-03 |
# 加速速度測定データに適合する化学反応ニューラルネットワーク
Chemical Reaction Neural Networks for Fitting Accelerating Rate Calorimetry Data ( http://arxiv.org/abs/2408.11984v2 ) ライセンス: Link先を確認 | Saakaar Bhatnagar, Andrew Comerford, Zelu Xu, Davide Berti Polato, Araz Banaeizadeh, Alessandro Ferraris, | (参考訳) リチウムイオン電池の需要が急速に増加するにつれて、熱流出を緩和するために安全な方法でこれらの電池を設計する必要がある。
バッテリーの熱流出は、制御不能な温度上昇と潜在的な火災を引き起こし、これは大きな安全上の懸念である。
典型的には、熱流出熱量測定データ(例えば、加速速度熱量測定(ARC))の化学動力学をモデル化する必要がある。
Arrhenius Ordinary Differential Equation (ODE) thermal runaway model to Accelerated Rate Calorimetry (ARC) data makes several assumptions that reduce the fidelity and generalizability of the obtained model。
本稿では,N方程式 Arrhenius ODE の運動パラメータをモリセル21700 P45Bから得られたARCデータに適合させるために,化学反応ニューラルネットワーク(CRNN)を訓練する。
モデルは実験データのより良い近似であることが判明した。
この手法の柔軟性は、2方程式と4方程式のモデルを用いて実験することによって実証される。
得られた運動パラメータを用いて3次元で熱流出シミュレーションを行い, 得られた熱流出モデルの大規模シミュレーションへの適用性を示した。
As the demand for lithium-ion batteries rapidly increases there is a need to design these cells in a safe manner to mitigate thermal runaway. Thermal runaway in batteries leads to an uncontrollable temperature rise and potentially fires, which is a major safety concern. Typically, when modelling the chemical kinetics of thermal runaway calorimetry data ( e.g. Accelerating Rate Calorimetry (ARC)) is needed to determine the temperature-driven decomposition kinetics. Conventional methods of fitting Arrhenius Ordinary Differential Equation (ODE) thermal runaway models to Accelerated Rate Calorimetry (ARC) data make several assumptions that reduce the fidelity and generalizability of the obtained model. In this paper, Chemical Reaction Neural Networks (CRNNs) are trained to fit the kinetic parameters of N-equation Arrhenius ODEs to ARC data obtained from a Molicel 21700 P45B. The models are found to be better approximations of the experimental data. The flexibility of the method is demonstrated by experimenting with two-equation and four-equation models. Thermal runaway simulations are conducted in 3D using the obtained kinetic parameters, showing the applicability of the obtained thermal runaway models to large-scale simulations. | 翻訳日:2024-09-04 16:32:02 公開日:2024-09-03 |
# ペプチドのフル原子時間相関ダイナミクスのためのフォースガイドブリッジマッチング
Force-Guided Bridge Matching for Full-Atom Time-Coarsened Dynamics of Peptides ( http://arxiv.org/abs/2408.15126v3 ) ライセンス: Link先を確認 | Ziyang Yu, Wenbing Huang, Yang Liu, | (参考訳) 分子動力学(MD)シミュレーションは、材料科学、化学、薬理学の分野において、いくつかの分野において、置換不可能でユビキタスである。
従来のMDシミュレーションは、MDシミュレーションの広範な適用を制限する長期均衡時間問題と同様に、数値安定性に悩まされている。
近年,この制限を克服するために,より大規模な時間スケールにおける状態遷移機構を学習する,時間粗大化力学のためのディープラーニングアプローチの急激な開発が進められている。
しかしながら,提案手法が低効率な新しい状態として受け入れられることは滅多にない,再サンプリング手法によってボルツマン分布を目標とする手法はごくわずかである。
本研究では,フル原子時間粗大化力学のためのブリッジマッチングに物理前処理を組み込んだ新しいフレームワークであるFBMを提案する。
我々のよく設計された中間力場の誘導により、FBMは余分なステップなしで直接推論によりボルツマン様の分布を目標にすることができる。
小ペプチドに関する実験は、網羅的な指標で我々の優越性を検証し、未知のペプチド系への転移性を示す。
Molecular Dynamics (MD) simulations are irreplaceable and ubiquitous in fields of materials science, chemistry, pharmacology just to name a few. Conventional MD simulations are plagued by numerical stability as well as long equilibration time issues, which limits broader applications of MD simulations. Recently, a surge of deep learning approaches have been devised for time-coarsened dynamics, which learns the state transition mechanism over much larger time scales to overcome these limitations. However, only a few methods target the underlying Boltzmann distribution by resampling techniques, where proposals are rarely accepted as new states with low efficiency. In this work, we propose a force-guided bridge matching model, FBM, a novel framework that first incorporates physical priors into bridge matching for full-atom time-coarsened dynamics. With the guidance of our well-designed intermediate force field, FBM is feasible to target the Boltzmann-like distribution by direct inference without extra steps. Experiments on small peptides verify our superiority in terms of comprehensive metrics and demonstrate transferability to unseen peptide systems. | 翻訳日:2024-09-04 16:32:02 公開日:2024-09-03 |
# MPruner: CKAに基づく相互情報処理によるニューラルネットワークサイズ最適化
MPruner: Optimizing Neural Network Size with CKA-Based Mutual Information Pruning ( http://arxiv.org/abs/2408.13482v2 ) ライセンス: Link先を確認 | Seungbeom Hu, ChanJun Park, Andrew Ferraiuolo, Sang-Ki Ko, Jinwoo Kim, Haein Song, Jieung Kim, | (参考訳) 実行時のパフォーマンスとメモリ使用量に直接影響するため、ニューラルネットワークの最適なサイズを決定することが重要だ。
プルーニング(Pruning)は、ニューラルネットワークのサイズを削減し、精度の保存を数学的に保証する、よく確立されたモデル圧縮技術である。
しかし、最近のプルーニングメソッドの多くは、個々のモデルコンポーネントのグローバルなコントリビューションを見落としているため、プルーニングされたモデルが望ましいデータセットとパフォーマンス要件を満たすことを保証するのは難しい。
これらの課題に対処するため,ベクトル類似性により相互情報を活用する新しいプルーニングアルゴリズムMPrunerを開発した。
MPrunerはCKA(Centered Kernel Alignment)の類似度測定でレイヤクラスタリングを活用し、ニューラルネットワークのグローバル情報をより正確で効率的なレイヤワイドプルーニングに組み込むことができる。
我々はMPrunerを様々なアーキテクチャや構成で評価し、その汎用性を実証し、実践的なガイドラインを提供した。
MPrunerはCNNとトランスフォーマーベースのモデルで最大50%のパラメータとメモリ使用量の削減を実現した。
Determining the optimal size of a neural network is critical, as it directly impacts runtime performance and memory usage. Pruning is a well-established model compression technique that reduces the size of neural networks while mathematically guaranteeing accuracy preservation. However, many recent pruning methods overlook the global contributions of individual model components, making it difficult to ensure that a pruned model meets the desired dataset and performance requirements. To address these challenges, we developed a new pruning algorithm, MPruner, that leverages mutual information through vector similarity. MPruner utilizes layer clustering with the Centered Kernel Alignment (CKA) similarity metric, allowing us to incorporate global information from the neural network for more precise and efficient layer-wise pruning. We evaluated MPruner across various architectures and configurations, demonstrating its versatility and providing practical guidelines. MPruner achieved up to a 50% reduction in parameters and memory usage for CNN and transformer-based models, with minimal to no loss in accuracy. | 翻訳日:2024-09-04 16:21:29 公開日:2024-09-03 |
# 雲に基づく変分量子アルゴリズムの検証
Verifiable cloud-based variational quantum algorithms ( http://arxiv.org/abs/2408.13713v3 ) ライセンス: Link先を確認 | Junhong Yang, Banghai Wang, Junyu Quan, Qin Li, | (参考訳) 変分量子アルゴリズム(VQA)は、量子機械学習(QML)のためのノイズの多い中間スケール量子(NISQ)デバイスで量子優位性を示す可能性がある。
しかしながら、量子リソースの高コストと限られた可用性を考えると、クラウドネットワークを介してVQAをデリゲートすることは、量子能力に制限のあるクライアントにとってより実用的なソリューションである。
近年,クラウドベースの量子リソース消費最小限のVQAにアンシラ駆動型量子計算(ADQC)を利用する,分散セキュアなクラウド量子コンピューティングプロトコルが提案されている。
しかし、それらのプロトコルは検証性に欠けており、サーバによる潜在的悪意のある振る舞いに公開している。
さらに、チャネル損失は、デリゲートされた変分回路のサイズが大きくなるにつれて、頻繁に再デリゲーションを必要とし、回路の複雑さの増加による検証が複雑になる。
本稿では,これらの課題に対処する新たなプロトコルを導入し,クラウドベースのVQAにおける検証可能性とチャネル損失耐性を両立させる。
Variational quantum algorithms (VQAs) have shown potential for quantum advantage with noisy intermediate-scale quantum (NISQ) devices for quantum machine learning (QML). However, given the high cost and limited availability of quantum resources, delegating VQAs via cloud networks is a more practical solution for clients with limited quantum capabilities. Recently, Shingu et al.[Physical Review A, 105, 022603 (2022)] proposed a variational secure cloud quantum computing protocol, utilizing ancilla-driven quantum computation (ADQC) for cloud-based VQAs with minimal quantum resource consumption. However, their protocol lacks verifiability, which exposes it to potential malicious behaviors by the server. Additionally, channel loss requires frequent re-delegation as the size of the delegated variational circuit grows, complicating verification due to increased circuit complexity. This paper introduces a new protocol to address these challenges and enhance both verifiability and tolerance to channel loss in cloud-based VQAs. | 翻訳日:2024-09-04 16:21:29 公開日:2024-09-03 |
# CBM3Dフィルタを用いたカラー画像のエッジ検出のためのマルチスケールグラディエント融合法
A Multiscale Gradient Fusion Method for Edge Detection in Color Images Utilizing the CBM3D Filter ( http://arxiv.org/abs/2408.14013v2 ) ライセンス: Link先を確認 | Zhuoyue Wang, Yiyi Tao, Danqing Ma, Jiajing Chen, | (参考訳) 本稿では,協調フィルタリングとマルチスケール勾配融合を組み合わせたカラーエッジ検出手法を提案する。
ブロックマッチングと3D(BM3D)フィルタは、変換領域におけるスパース表現を高め、デノナイズ効果を達成するのに用いられ、一方、マルチスケール勾配融合は、単一スケールエッジ検出における詳細の欠如を補い、エッジ検出の精度と品質を向上させる。
まず、データセット内のRGB画像を数学的操作によりXYZ色空間画像に変換する。
第2に、スパース画像にカラーブロックマッチングと3Dフィルタを用い、ノイズ干渉を除去する。
そして、2つのスケールパラメータのカラー画像のベクトル勾配と異方性ガウス方向微分を算出し、画素単位で平均化して新しいエッジ強度マップを得る。
最後に、画像正規化および非最大抑圧技術によりエッジ特性が向上し、その上で、二重しきい値選択と新しいモルフォロジー精製法によりエッジ輪郭が得られる。
エッジ検出データセットの実験的解析により,提案手法は高いノイズ頑健性と高エッジ品質を有し,PR曲線,AUC,PSNR,MSE,FOMインジケータで示されるColor Sobel,Color Canny,SE,Color AGDDよりも優れている。
In this paper, a color edge detection strategy based on collaborative filtering combined with multiscale gradient fusion is proposed. The block-matching and 3D (BM3D) filter are used to enhance the sparse representation in the transform domain and achieve the effect of denoising, whereas the multiscale gradient fusion makes up for the defect of loss of details in single-scale edge detection and improves the edge detection resolution and quality. First, the RGB images in the dataset are converted to XYZ color space images through mathematical operations. Second, the colored block-matching and 3D (CBM3D) filter are used on the sparse images and to remove noise interference. Then, the vector gradients of the color image and the anisotropic Gaussian directional derivative of the two scale parameters are calculated and averaged pixel-by-pixel to obtain a new edge strength map. Finally, the edge features are enhanced by image normalization and non-maximum suppression technology, and on that basis, the edge contour is obtained by double threshold selection and a new morphological refinement method. Through an experimental analysis of the edge detection dataset, the method proposed has good noise robustness and high edge quality, which is better than the Color Sobel, Color Canny, SE and Color AGDD as shown by the PR curve, AUC, PSNR, MSE, and FOM indicators. | 翻訳日:2024-09-04 16:21:29 公開日:2024-09-03 |
# Foundation Models for Music: A Survey
Foundation Models for Music: A Survey ( http://arxiv.org/abs/2408.14340v3 ) ライセンス: Link先を確認 | Yinghao Ma, Anders Øland, Anton Ragni, Bleiz MacSen Del Sette, Charalampos Saitis, Chris Donahue, Chenghua Lin, Christos Plachouras, Emmanouil Benetos, Elona Shatri, Fabio Morreale, Ge Zhang, György Fazekas, Gus Xia, Huan Zhang, Ilaria Manco, Jiawen Huang, Julien Guinot, Liwei Lin, Luca Marinelli, Max W. Y. Lam, Megha Sharma, Qiuqiang Kong, Roger B. Dannenberg, Ruibin Yuan, Shangda Wu, Shih-Lun Wu, Shuqi Dai, Shun Lei, Shiyin Kang, Simon Dixon, Wenhu Chen, Wenhao Huang, Xingjian Du, Xingwei Qu, Xu Tan, Yizhi Li, Zeyue Tian, Zhiyong Wu, Zhizheng Wu, Ziyang Ma, Ziyu Wang, | (参考訳) 近年,大規模言語モデル (LLMs) や潜在拡散モデル (LDMs) といった基礎モデル (FMs) が音楽など様々な分野に多大な影響を与えている。
本総説では、表現学習、生成学習、マルチモーダル学習にまたがる、最先端(SOTA)事前学習モデルと音楽基礎モデルについて概観する。
まず,音楽産業における音楽の重要性を文脈化し,音楽におけるAIの進化を辿る。
ファンデーションモデルが対象とするモダリティを記述することにより、FM開発において多くの音楽表現が過小評価されていることを明らかにする。
そして,音楽理解,生成,医療応用におけるFMの可能性とともに,様々な音楽応用における従来の手法の汎用性の欠如に重点を置いている。
モデル事前学習のパラダイム、アーキテクチャの選択、トークン化、微調整の方法論、制御可能性の詳細を包括的に調べることで、命令チューニングやコンテキスト内学習、法則のスケーリング、創発的能力、そして長いシーケンスモデリングなど、十分に検討すべき重要なトピックを強調します。
専門のセクションでは、音楽エージェントへの洞察を提示し、データセットの徹底的な分析と、事前学習および下流タスクに不可欠な評価を添える。
最後に、倫理的考察の重要さを強調することによって、音楽におけるFM研究は、解釈可能性、透明性、人的責任、著作権問題といった問題にもっと焦点をあてるべきである、と提唱する。
本稿では,音楽分野における人間とAIの連携の軌跡を形成することを目的として,音楽分野におけるFMの今後の課題と動向について考察する。
In recent years, foundation models (FMs) such as large language models (LLMs) and latent diffusion models (LDMs) have profoundly impacted diverse sectors, including music. This comprehensive review examines state-of-the-art (SOTA) pre-trained models and foundation models in music, spanning from representation learning, generative learning and multimodal learning. We first contextualise the significance of music in various industries and trace the evolution of AI in music. By delineating the modalities targeted by foundation models, we discover many of the music representations are underexplored in FM development. Then, emphasis is placed on the lack of versatility of previous methods on diverse music applications, along with the potential of FMs in music understanding, generation and medical application. By comprehensively exploring the details of the model pre-training paradigm, architectural choices, tokenisation, finetuning methodologies and controllability, we emphasise the important topics that should have been well explored, like instruction tuning and in-context learning, scaling law and emergent ability, as well as long-sequence modelling etc. A dedicated section presents insights into music agents, accompanied by a thorough analysis of datasets and evaluations essential for pre-training and downstream tasks. Finally, by underscoring the vital importance of ethical considerations, we advocate that following research on FM for music should focus more on such issues as interpretability, transparency, human responsibility, and copyright issues. The paper offers insights into future challenges and trends on FMs for music, aiming to shape the trajectory of human-AI collaboration in the music realm. | 翻訳日:2024-09-04 16:21:29 公開日:2024-09-03 |
# Squid: エネルギー効率の良いオンデバイス言語モデルのための新しいモダリティとしてのLong Context
Squid: Long Context as a New Modality for Energy-Efficient On-Device Language Models ( http://arxiv.org/abs/2408.15518v2 ) ライセンス: Link先を確認 | Wei Chen, Zhiyuan Li, Shuo Xin, Yihao Wang, | (参考訳) 本稿では,言語モデルにおける長いコンテキストのエネルギー効率向上のためのデコーダ・デコーダアーキテクチャであるDolphinを提案する。
弊社のアプローチは、デバイス上のモデルに固有の、エネルギー消費とレイテンシの問題に対処する。
ドルフィンは、コンパクトな0.5Bパラメータデコーダを使用して、広範囲なコンテキスト情報をメモリ埋め込みに蒸留し、プライマリ7Bパラメータデコーダモデルの入力長を大幅に削減する。
視覚言語モデルに触発されて、画像埋め込みプロジェクタを用いて、長いテキストコンテキストをエンコードし、拡張コンテキストを異なるモダリティとして効果的に扱う。
この革新的な方法は、拡張された入力シーケンスに関連する典型的な計算オーバーヘッドを伴わずに、はるかに長いコンテキストの処理を可能にする。
実験的な評価では、応答の質を損なうことなく、従来のフル長コンテキスト処理法と比較して、エネルギー効率が10倍改善し、レイテンシが5倍削減された。
私たちの研究は、より持続的でスケーラブルなオンデバイスアプリケーション用言語モデルの開発に寄与し、長いコンテキストを理解するための正確さを維持しながら、リソース制約のある環境でのエネルギー効率と応答性のAI技術に対する重要なニーズに対処します。
この研究は、自然言語処理の幅広い分野、特に資源制限設定のための効率的なモデル設計の領域に影響を及ぼす。
エッジデバイス上でより高度なAI機能を実現することで、Dolphinは、計算リソースがプレミアムである幅広いアプリケーションにおいて、高度な言語処理の道を開くことができる。
Dolphinモデルはhttps://huggingface.co/NexaAIDev/Dolphin.comで公開されている。
This paper presents Dolphin, a novel decoder-decoder architecture for energy-efficient processing of long contexts in language models. Our approach addresses the significant energy consumption and latency challenges inherent in on-device models. Dolphin employs a compact 0.5B parameter decoder to distill extensive contextual information into a memory embedding, substantially reducing the input length for the primary 7B parameter decoder model. Inspired by vision-language models, we repurpose the image embedding projector to encode long textual contexts, effectively treating extended context as a distinct modality. This innovative method enables processing of substantially longer contexts without the typical computational overhead associated with extended input sequences. Empirical evaluations demonstrate a 10-fold improvement in energy efficiency and a 5-fold reduction in latency compared to conventional full-length context processing methods without losing quality of the response. Our work contributes to the development of more sustainable and scalable language models for on-device applications, addressing the critical need for energy-efficient and responsive AI technologies in resource-constrained environments while maintaining the accuracy to understand long contexts. This research has implications for the broader field of natural language processing, particularly in the domain of efficient model design for resource-limited settings. By enabling more sophisticated AI capabilities on edge devices, Dolphin paves the way for advanced language processing in a wide range of applications where computational resources are at a premium. The Dolphin model is publicly available at https://huggingface.co/NexaAIDev/Dolphin. | 翻訳日:2024-09-04 12:51:25 公開日:2024-09-03 |
# GANsコンディショニング手法:サーベイ
GANs Conditioning Methods: A Survey ( http://arxiv.org/abs/2408.15640v3 ) ライセンス: Link先を確認 | Anis Bourou, Valérie Mezger, Auguste Genovesio, | (参考訳) 近年、GAN(Generative Adversarial Networks)は大きな進歩を遂げ、様々な分野で広く普及している。
オリジナルのGANアーキテクチャでは、コンテンツに対して特定の制御をせずに画像を生成することが可能であり、無条件生成プロセスとなっている。
しかし、多くの実用的な応用では、生成した出力を正確に制御する必要があるため、明示的な条件付けを組み込んだ条件付きGAN(cGAN)が開発され、生成プロセスが導かれるようになった。
cGANは、追加情報(条件)を組み込むことで、元のフレームワークを拡張し、その特定の基準に準拠したサンプルの生成を可能にする。
様々な条件付け手法が提案され、それぞれ、条件付け情報をジェネレータと識別器ネットワークの両方に統合する方法が異なる。
本稿では,GANの条件付け手法を概説し,各手法の特徴を探求し,その特異なメカニズムと理論的基礎を明らかにする。
さらに、これらの手法の比較分析を行い、その性能を様々な画像データセット上で評価する。
これらの分析を通して,様々な条件付け手法の強みと限界についての洞察を提供することを目標とし,生成モデリングにおける今後の研究と応用を導くことを目的とする。
In recent years, Generative Adversarial Networks (GANs) have seen significant advancements, leading to their widespread adoption across various fields. The original GAN architecture enables the generation of images without any specific control over the content, making it an unconditional generation process. However, many practical applications require precise control over the generated output, which has led to the development of conditional GANs (cGANs) that incorporate explicit conditioning to guide the generation process. cGANs extend the original framework by incorporating additional information (conditions), enabling the generation of samples that adhere to that specific criteria. Various conditioning methods have been proposed, each differing in how they integrate the conditioning information into both the generator and the discriminator networks. In this work, we review the conditioning methods proposed for GANs, exploring the characteristics of each method and highlighting their unique mechanisms and theoretical foundations. Furthermore, we conduct a comparative analysis of these methods, evaluating their performance on various image datasets. Through these analyses, we aim to provide insights into the strengths and limitations of various conditioning techniques, guiding future research and application in generative modeling. | 翻訳日:2024-09-04 12:43:33 公開日:2024-09-03 |
# 深層学習のためのソフトマックスワープ
Realigned Softmax Warping for Deep Metric Learning ( http://arxiv.org/abs/2408.15656v2 ) ライセンス: Link先を確認 | Michael G. DeMoor, John J. Prevost, | (参考訳) ディープ・メトリック・ラーニング(DML)の損失関数は、伝統的に、埋め込み空間内の分離性とコンパクト性の力をコントロールすることを目的としており、同じクラスデータポイントをまとめて、異なるクラスを分割する。
DMLの文脈内では、ソフトマックス演算は通常、距離を最適化の確率に正規化し、すべてのプッシュ/プル力を結合する。
本稿では,ユークリッド領域内で動作し,ソフトマックス下での埋め込み空間形成を規定する結合力のフル活用を目的とした,潜在的に新しい損失関数のクラスを提案する。
これらのコンパクト性と分離性の力は、ワープ関数を用いることで、自由に制御された位置で強化または緩和することができる。
本研究では,ワーピング関数の簡単な例を示し,様々なメトリクス学習ベンチマークの競合的かつ最先端な結果を得るために使用する。
Deep Metric Learning (DML) loss functions traditionally aim to control the forces of separability and compactness within an embedding space so that the same class data points are pulled together and different class ones are pushed apart. Within the context of DML, a softmax operation will typically normalize distances into a probability for optimization, thus coupling all the push/pull forces together. This paper proposes a potential new class of loss functions that operate within a euclidean domain and aim to take full advantage of the coupled forces governing embedding space formation under a softmax. These forces of compactness and separability can be boosted or mitigated within controlled locations at will by using a warping function. In this work, we provide a simple example of a warping function and use it to achieve competitive, state-of-the-art results on various metric learning benchmarks. | 翻訳日:2024-09-04 12:43:33 公開日:2024-09-03 |
# コークス音と視覚変換器を用いた呼吸器疾患の信頼性診断に向けて
Towards reliable respiratory disease diagnosis based on cough sounds and vision transformers ( http://arxiv.org/abs/2408.15667v2 ) ライセンス: Link先を確認 | Qian Wang, Zhaoyang Bu, Jiaxuan Mao, Wenyu Zhu, Jingya Zhao, Wei Du, Guochao Shi, Min Zhou, Si Chen, Jieming Qu, | (参考訳) 近年の深層学習技術の進歩は, マルチモーダル医療データに基づく疾患診断を含む実世界の様々な応用において, 性能向上に拍車を掛けている。
聴覚データに基づく呼吸器疾患(例:COVID-19、慢性閉塞性肺疾患)も注目されている。
しかし、既存の研究は通常、伝統的な機械学習や中程度のスケールの深層モデルを利用する。
一方, 臨床データのキュレーションや注釈付けの難しさから, 小規模データによる評価と評価を行った。
これらの課題に先行研究で対処するため、軽量な畳み込みニューラルネットワーク(ResNet18など)から現代の視覚変換器への様々な深層モデルの評価を行い、呼吸器疾患分類におけるそれらの性能を比較するための統一的な枠組みを構築した。
このような広範な実証研究から得られた知見に基づいて,大規模コークスデータセットに基づく自己指導型と教師型両方の学習に基づく,コークス病分類の新しいアプローチを提案する。
提案手法は、新型コロナウイルスの診断のための2つのベンチマークデータセットと、AUROC 92.5% の COPD/non-COPD 分類のためのプロプライエタリデータセットにおいて、先行技術よりも一貫して優れていることを示す実験結果を得た。
Recent advancements in deep learning techniques have sparked performance boosts in various real-world applications including disease diagnosis based on multi-modal medical data. Cough sound data-based respiratory disease (e.g., COVID-19 and Chronic Obstructive Pulmonary Disease) diagnosis has also attracted much attention. However, existing works usually utilise traditional machine learning or deep models of moderate scales. On the other hand, the developed approaches are trained and evaluated on small-scale data due to the difficulty of curating and annotating clinical data on scale. To address these issues in prior works, we create a unified framework to evaluate various deep models from lightweight Convolutional Neural Networks (e.g., ResNet18) to modern vision transformers and compare their performance in respiratory disease classification. Based on the observations from such an extensive empirical study, we propose a novel approach to cough-based disease classification based on both self-supervised and supervised learning on a large-scale cough data set. Experimental results demonstrate our proposed approach outperforms prior arts consistently on two benchmark datasets for COVID-19 diagnosis and a proprietary dataset for COPD/non-COPD classification with an AUROC of 92.5%. | 翻訳日:2024-09-04 12:43:33 公開日:2024-09-03 |
# シリコンオン絶縁体上のNbTiN超伝導ナノワイヤ単光子検出器の中間赤外特性評価
Mid-infrared characterization of NbTiN superconducting nanowire single-photon detectors on silicon-on-insulator ( http://arxiv.org/abs/2408.15959v3 ) ライセンス: Link先を確認 | Adan Azem, Dmitry V. Morozov, Daniel Kuznesof, Ciro Bruscino, Robert H. Hadfield, Lukas Chrostowski, Jeff F. Young, | (参考訳) 超伝導ナノワイヤ単光子検出器は、紫外線から近赤外域までの様々な波長で個々の光子を検出するために広く用いられている。
近年、量子通信、分光、天体物理学の応用により、中赤外スペクトルにおける単一光子に対する感度を高めることへの関心が高まっている。
本稿では、シリコンオン絶縁体基板上に2線構成で作製した、U字型NbTiN系超伝導ナノワイヤ単光子検出器のスペクトル検出能力を、中赤外域に拡張する取り組みについて述べる。
5nmの厚みと50nmの広帯域NbTiNナノワイヤの波長3.5 {\mu}mまでの飽和内部検出効率を0.9Kで10秒未満で高速回復時間4.3nsで実証した。
検出器は、小型でマルチチャネルデバイスアプリケーションのためのシリコンオン絶縁体プラットフォームにおける導波路の統合のために設計されている。
Superconducting nanowire single-photon detectors are widely used for detecting individual photons across various wavelengths from ultraviolet to near-infrared range. Recently, there has been increasing interest in enhancing their sensitivity to single photons in the mid-infrared spectrum, driven by applications in quantum communication, spectroscopy and astrophysics. Here, we present our efforts to expand the spectral detection capabilities of U-shaped NbTiN-based superconducting nanowire single-photon detectors, fabricated in a 2-wire configuration on a silicon-on-insulator substrate, into the mid-infrared range. We demonstrate saturated internal detection efficiency extending up to a wavelength of 3.5 {\mu}m for a 5 nm thick and 50 nm wide NbTiN nanowire with a dark count rate less than 10 counts per second at 0.9 K and a rapid recovery time of 4.3 ns. The detectors are engineered for integration on waveguides in a silicon-on-insulator platform for compact, multi-channel device applications. | 翻訳日:2024-09-04 12:43:33 公開日:2024-09-03 |
# IBO: 病理組織学における説明可能な人工知能評価の促進を目的とした塗布による排除
IBO: Inpainting-Based Occlusion to Enhance Explainable Artificial Intelligence Evaluation in Histopathology ( http://arxiv.org/abs/2408.16395v2 ) ライセンス: Link先を確認 | Pardis Afshar, Sajjad Hashembeiki, Pouya Khani, Emad Fatemizadeh, Mohammad Hossein Rohban, | (参考訳) 病理組織像解析は正確な癌診断と治療計画に不可欠である。
ディープラーニングモデル、特に畳み込みニューラルネットワークはこの分野を前進させてきたが、その"ブラックボックス"な性質は、解釈可能性と信頼性に関する懸念を引き起こす。
説明可能な人工知能(XAI)技術はこれらの懸念に対処することを目的としているが、その効果を評価することは依然として難しい。
現在のオクルージョンベースのXAI手法の大きな問題は、しばしばOoD(Out-of-Distribution)サンプルを生成し、不正確な評価をもたらすことである。
Inpainting-based Occlusion (IBO) は,Denoising Diffusion Probabilistic Model(DDD)を用いて,組織像に閉塞領域を塗布する新しいオクルージョン戦略である。
IBOは癌領域を現実的で非癌組織に置き換えることで、OoDアーティファクトを最小化し、データの完全性を維持する。
我々は,CAMELYON16データセット上で,まず学習された知覚的イメージパッチ類似度(LPIPS)測定値を用いて知覚的類似性を評価する。
以上の結果から,IBOは知覚の忠実度を有意に向上させ,LPIPSスコアの2倍近い改善を達成できた。
さらに、IBOは従来の手法に比べて、XAI性能予測の精度を42%から71%に向上させた。
これらの結果は、IBOがXAI技術の評価をより信頼性の高いものにし、病理学やその他の応用に役立てる可能性を示している。
この研究のソースコードはhttps://github.com/a-fsh-r/IBO.comで公開されている。
Histopathological image analysis is crucial for accurate cancer diagnosis and treatment planning. While deep learning models, especially convolutional neural networks, have advanced this field, their "black-box" nature raises concerns about interpretability and trustworthiness. Explainable Artificial Intelligence (XAI) techniques aim to address these concerns, but evaluating their effectiveness remains challenging. A significant issue with current occlusion-based XAI methods is that they often generate Out-of-Distribution (OoD) samples, leading to inaccurate evaluations. In this paper, we introduce Inpainting-Based Occlusion (IBO), a novel occlusion strategy that utilizes a Denoising Diffusion Probabilistic Model to inpaint occluded regions in histopathological images. By replacing cancerous areas with realistic, non-cancerous tissue, IBO minimizes OoD artifacts and preserves data integrity. We evaluate our method on the CAMELYON16 dataset through two phases: first, by assessing perceptual similarity using the Learned Perceptual Image Patch Similarity (LPIPS) metric, and second, by quantifying the impact on model predictions through Area Under the Curve (AUC) analysis. Our results demonstrate that IBO significantly improves perceptual fidelity, achieving nearly twice the improvement in LPIPS scores compared to the best existing occlusion strategy. Additionally, IBO increased the precision of XAI performance prediction from 42% to 71% compared to traditional methods. These results demonstrate IBO's potential to provide more reliable evaluations of XAI techniques, benefiting histopathology and other applications. The source code for this study is available at https://github.com/a-fsh-r/IBO. | 翻訳日:2024-09-04 12:43:33 公開日:2024-09-03 |
# 異なるVictims、同じLayout: 強化されたEメール保護のためのEメールの視覚的類似性検出
Different Victims, Same Layout: Email Visual Similarity Detection for Enhanced Email Protection ( http://arxiv.org/abs/2408.16945v2 ) ライセンス: Link先を確認 | Sachin Shukla, Omid Mirzaei, | (参考訳) 効果的なスパム検出システムの追求において、しばしば、ルールベースの検出システムまたはキーワードに依存する機械学習(ML)ソリューションを通じて既知のスパムパターンを特定することに焦点が当てられている。
しかし、どちらのシステムも、低コストで達成できる回避技術やゼロデイ攻撃の影響を受けやすい。
そのため、ルールが更新されたり、MLモデルが再トレーニングされたりしても、防衛システムをバイパスした電子メールは、翌日に再びそれを行うことができる。
以前検出されなかったスパムに類似したレイアウトを示すメールを検知できないことは、顧客にとって問題であり、企業の信頼を損なう可能性がある。
我々の観察では、脅威アクターがメールキットを広範囲に再利用し、例えばメールの内容を変更するなど、ほとんど努力せずに検出を回避できることが示されている。
本研究では,電子メール脅威防御システムの検知能力を向上させるために,Pisco という電子メール視覚類似性検出手法を提案する。
我々は,異なる情報源から得られた実世界のサンプルに概念実証を適用した。
以上の結果から,Eメールキットは広範囲に再利用され,視覚的に類似したメールが,さまざまな時間間隔で当社の顧客に送信されていることが明らかとなった。
したがって,本手法は,テキストの特徴やキーワードに依存した検出機能がバイパスされる状況において非常に有用である。
In the pursuit of an effective spam detection system, the focus has often been on identifying known spam patterns either through rule-based detection systems or machine learning (ML) solutions that rely on keywords. However, both systems are susceptible to evasion techniques and zero-day attacks that can be achieved at low cost. Therefore, an email that bypassed the defense system once can do it again in the following days, even though rules are updated or the ML models are retrained. The recurrence of failures to detect emails that exhibit layout similarities to previously undetected spam is concerning for customers and can erode their trust in a company. Our observations show that threat actors reuse email kits extensively and can bypass detection with little effort, for example, by making changes to the content of emails. In this work, we propose an email visual similarity detection approach, named Pisco, to improve the detection capabilities of an email threat defense system. We apply our proof of concept to some real-world samples received from different sources. Our results show that email kits are being reused extensively and visually similar emails are sent to our customers at various time intervals. Therefore, this method could be very helpful in situations where detection features that rely on textual features and keywords are bypassed, an occurrence our observations show happens frequently. | 翻訳日:2024-09-04 12:24:11 公開日:2024-09-03 |
# InkubaLM:低リソースアフリカ言語のための小さな言語モデル
InkubaLM: A small language model for low-resource African languages ( http://arxiv.org/abs/2408.17024v2 ) ライセンス: Link先を確認 | Atnafu Lambebo Tonja, Bonaventure F. P. Dossou, Jessica Ojo, Jenalea Rajab, Fadel Thior, Eric Peter Wairagala, Anuoluwapo Aremu, Pelonomi Moiloa, Jade Abbott, Vukosi Marivate, Benjamin Rosman, | (参考訳) 高いリソースの言語モデルは、しばしばアフリカの文脈では不足しており、重要なコンピューティングやデータ制約の中でさえも、効率的でアクセスしやすく、局所的に関連するモデルに重要な必要性がある。
本稿では,0.4億のパラメータを持つ小型言語モデルであるInkubaLMを紹介し,機械翻訳や質問応答,AfriMMLU,AfriXnliタスクといったタスクにおける,より大きなパラメータ数を持つモデルに匹敵する性能を実現する。
特に、InkubaLMは感情分析において多くの大きなモデルより優れており、複数の言語にまたがる顕著な一貫性を示している。
この研究は、効果的な言語モデルは実質的なリソースに依存しなければならないという従来のパラダイムに挑戦する上で、重要な進歩を示している。
私たちのモデルとデータセットは、低リソース言語の研究と開発を促進するためにhttps://huggingface.co/lelapaで公開されています。
High-resource language models often fall short in the African context, where there is a critical need for models that are efficient, accessible, and locally relevant, even amidst significant computing and data constraints. This paper introduces InkubaLM, a small language model with 0.4 billion parameters, which achieves performance comparable to models with significantly larger parameter counts and more extensive training data on tasks such as machine translation, question-answering, AfriMMLU, and the AfriXnli task. Notably, InkubaLM outperforms many larger models in sentiment analysis and demonstrates remarkable consistency across multiple languages. This work represents a pivotal advancement in challenging the conventional paradigm that effective language models must rely on substantial resources. Our model and datasets are publicly available at https://huggingface.co/lelapa to encourage research and development on low-resource languages. | 翻訳日:2024-09-04 12:24:11 公開日:2024-09-03 |
# 非コヒーレント量子混合系のフィードバック冷却シミュレーション
Simulating Feedback Cooling of Incoherent Quantum Mixtures ( http://arxiv.org/abs/2408.17092v2 ) ライセンス: Link先を確認 | Kaiwen Zhu, Zain Mehdi, Joseph J. Hope, Simon A. Haine, | (参考訳) 我々は,既存の位相空間法,すなわちTrncated Wigner Approximation (TWA)に基づいて構築された量子系の測定と制御の効率的かつスケーラブルなシミュレーションのための新しい手法を開発した。
実測に基づく2モードシステムにおけるフィードバック冷却のシミュレーションにより, 従来の粒子フィルタ法と比較し, 低次元特性で正確な解の計算が可能となることを示す。
提案手法の利点はマルチモードスケーラビリティであり,非コヒーレントな準1次元熱アンサンブルの量子デジェネティクスに対する計測に基づくフィードバック冷却のシミュレーションを初めて成功させた。
提案手法の基本原理は,測定とコヒーレントフィードバックの一般対応を利用しており,他の様々な量子制御シナリオにも適用可能であることを予測している。
We develop a new approach for efficient and scalable simulations of measurement and control of quantum systems built upon existing phase-space methods, namely the Truncated Wigner Approximation (TWA). We benchmark against existing particle-filter methods by simulating measurement based feedback cooling in a two-mode system, whose low-dimensional nature permits a computation of an exact solution. The advantage of our method is multi-mode scalability, which we demonstrate through the first successful simulation of measurement-based feedback cooling of an incoherent quasi-1D thermal ensemble to quantum degeneracy. As the underlying principle of our approach exploits a general correspondence between measurement and coherent feedback, we anticipate it is also applicable across a broad range of other quantum control scenarios. | 翻訳日:2024-09-04 12:24:11 公開日:2024-09-03 |
# 薬物反応予測のためのマルチリレーショナルグラフニューラルネットワークにおけるエッジ型特異的解釈
Controllable Edge-Type-Specific Interpretation in Multi-Relational Graph Neural Networks for Drug Response Prediction ( http://arxiv.org/abs/2408.17129v2 ) ライセンス: Link先を確認 | Xiaodi Li, Jianfeng Gui, Qian Gao, Haoyuan Shi, Zhenyu Yue, | (参考訳) グラフニューラルネットワークは、解釈可能な予測を要求する重要な意思決定領域に広く適用されており、解釈可能性アルゴリズムの発達に繋がる。
しかしながら、現在のグラフ解釈性アルゴリズムは、一般性を強調し、しばしば生物学的意義を見落とし、がん薬の反応を予測するための適用性を制限している。
本稿では,がん治療薬の反応予測のためのポストホック解釈性アルゴリズムであるCETExplainerを提案する。
サブグラフと予測の間の相互情報を考慮し、予測モデルに対して微細で生物学的に意味のある説明を提供する構造的スコアリング手法を提案する。
また,提案手法を定量的に評価するために,実世界のデータセットに基づく基底真理構築手法を提案する。
実世界のデータセットに関する実証分析は、CETExplainerが優れた安定性を達成し、主要なアルゴリズムと比較して説明品質を向上させることを示し、がん薬物予測のための堅牢で洞察に富んだツールを提供する。
Graph Neural Networks have been widely applied in critical decision-making areas that demand interpretable predictions, leading to the flourishing development of interpretability algorithms. However, current graph interpretability algorithms tend to emphasize generality and often overlook biological significance, thereby limiting their applicability in predicting cancer drug responses. In this paper, we propose a novel post-hoc interpretability algorithm for cancer drug response prediction, CETExplainer, which incorporates a controllable edge-type-specific weighting mechanism. It considers the mutual information between subgraphs and predictions, proposing a structural scoring approach to provide fine-grained, biologically meaningful explanations for predictive models. We also introduce a method for constructing ground truth based on real-world datasets to quantitatively evaluate the proposed interpretability algorithm. Empirical analysis on the real-world dataset demonstrates that CETExplainer achieves superior stability and improves explanation quality compared to leading algorithms, thereby offering a robust and insightful tool for cancer drug prediction. | 翻訳日:2024-09-04 12:24:11 公開日:2024-09-03 |
# rerankers: ランク付けメソッドを統合する軽量Pythonライブラリ
rerankers: A Lightweight Python Library to Unify Ranking Methods ( http://arxiv.org/abs/2408.17344v2 ) ライセンス: Link先を確認 | Benjamin Clavié, | (参考訳) 本稿では,最も一般的に使用されているリグレードアプローチに対して,使いやすいインターフェースを提供するPythonライブラリであるrerankersを提案する。
再ランク付けは多くの検索パイプラインの不可欠なコンポーネントであるが、異なる実装手法に依存する多くのアプローチが存在する。
Rerankersはこれらのメソッドを単一のユーザフレンドリーなインターフェースに統合し、実践者や研究者がPythonコードの1行だけを変更しながら、異なるメソッドを探索できるようにします。
さらに、リランカは実装が可能な限り最小限の依存関係で実行されることを保証し、可能な限り元の実装を再使用し、単純化されたインターフェースがより複雑なものよりもパフォーマンス上の劣化を生じさせないことを保証します。
サポートされているモデルの全ソースコードとリストは定期的に更新され、https://github.com/answerdotai/rerankers.comで入手できる。
This paper presents rerankers, a Python library which provides an easy-to-use interface to the most commonly used re-ranking approaches. Re-ranking is an integral component of many retrieval pipelines; however, there exist numerous approaches to it, relying on different implementation methods. rerankers unifies these methods into a single user-friendly interface, allowing practitioners and researchers alike to explore different methods while only changing a single line of Python code. Moreover ,rerankers ensures that its implementations are done with the fewest dependencies possible, and re-uses the original implementation whenever possible, guaranteeing that our simplified interface results in no performance degradation compared to more complex ones. The full source code and list of supported models are updated regularly and available at https://github.com/answerdotai/rerankers. | 翻訳日:2024-09-04 12:24:11 公開日:2024-09-03 |
# VLMを用いたオープンボキャブラリ時間行動定位
Open-vocabulary Temporal Action Localization using VLMs ( http://arxiv.org/abs/2408.17422v2 ) ライセンス: Link先を確認 | Naoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu, Katsushi Ikeuchi, | (参考訳) ビデオアクションのローカライゼーションは、長いビデオから特定のアクションのタイミングを見つけることを目的としている。
既存の学習ベースのアプローチは成功したが、相当なコストがかかるビデオに注釈をつける必要がある。
本稿では,市販の視覚言語モデル(VLM)に基づく学習自由でオープンな語彙アプローチを提案する。
この課題は、VLMが長いビデオを処理するように設計されていないことと、アクションを見つけるために調整されていることに起因している。
我々は、反復的な視覚的プロンプト技術を拡張することで、これらの問題を克服する。
具体的には、ビデオフレームをフレームインデックスラベル付き連結画像にサンプリングし、VLMがアクションの開始/終了に最も近いと考えられるフレームを推測する。
このプロセスをサンプリング時間ウィンドウを絞り込むことで反復することで、アクションの開始と終了の特定のフレームを見つけることができる。
このサンプリング手法は,ビデオ理解のためのVLMの実践的拡張を図り,妥当な結果をもたらすことを示す。
サンプルコードはhttps://microsoft.github.io/VLM-Video-Action-Localization/で公開されている。
Video action localization aims to find timings of a specific action from a long video. Although existing learning-based approaches have been successful, those require annotating videos that come with a considerable labor cost. This paper proposes a learning-free, open-vocabulary approach based on emerging off-the-shelf vision-language models (VLM). The challenge stems from the fact that VLMs are neither designed to process long videos nor tailored for finding actions. We overcome these problems by extending an iterative visual prompting technique. Specifically, we sample video frames into a concatenated image with frame index labels, making a VLM guess a frame that is considered to be closest to the start/end of the action. Iterating this process by narrowing a sampling time window results in finding a specific frame of start and end of an action. We demonstrate that this sampling technique yields reasonable results, illustrating a practical extension of VLMs for understanding videos. A sample code is available at https://microsoft.github.io/VLM-Video-Action-Localization/. | 翻訳日:2024-09-04 12:24:11 公開日:2024-09-03 |