このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240501となっている論文です。

PDF登録状況(公開日: 20240501)

TitleAuthorsAbstract論文公表日・翻訳日
# ポストデジタル人文科学:芸術・人文科学における計算と文化批判

Post-Digital Humanities: Computation and Cultural Critique in the Arts and Humanities ( http://arxiv.org/abs/2407.05922v1 )

ライセンス: Link先を確認
David M. Berry, (参考訳) 現在私たちは、日々の生活と、私たちを取り巻く環境がデジタル技術で埋め尽くされている、計算能力に満ちています。 これは予測技術とコンテキストコンピューティングの世界であり、スマートに拡散された計算処理を使用して、物質の世界に埋め込まれた計算リソースの詳細なWebを作成する。 このように、デジタルと非デジタルの歴史的区別はますますぼやけており、デジタルについて話すことは、あまり意味をなさない経験的な解離を前提としている。 実際、オンラインやオンラインのアイデアが、常にオンになっているスマートフォンやタブレット、そして広範な無線ネットワーク技術によって、時代遅れになったように、デジタルという言葉も、おそらく過去の世界を前提としている。

Today we live in computational abundance whereby our everyday lives and the environment that surrounds us are suffused with digital technologies. This is a world of anticipatory technology and contextual computing that uses smart diffused computational processing to create a fine web of computational resources that are embedded into the material world. Thus, the historical distinction between the digital and the non-digital becomes increasingly blurred, to the extent that to talk about the digital presupposes an experiential disjuncture that makes less and less sense. Indeed, just as the ideas of online or being online have become anachronistic as a result of our always-on smartphones and tablets and widespread wireless networking technologies, so too the term digital perhaps assumes a world of the past.
翻訳日:2024-07-22 14:19:18 公開日:2024-05-01
# グリーンAIに向けて:現状と今後の研究

Towards Green AI: Current status and future research ( http://arxiv.org/abs/2407.10237v1 )

ライセンス: Link先を確認
Christian Clemm, Lutz Stobbe, Kishan Wimalawarne, Jan Druschke, (参考訳) 人工知能の研究や応用における技術進歩は、グリーンAIと呼ばれる分野であるこのようなシステムの環境持続可能性に注目が集まっている。 この貢献により、環境アセスメントとAIシステムのコードデザインの両方に対するアプローチの現状を調査することで、グリーンAIに関する言論を広げることを目指している。 本稿では,これらのソフトウェア・ハードウエア・システムの4つの要素(モデル,データ,サーバ,クラウド)を考慮に入れたライフサイクルベースのシステム思考手法を提案する。 我々は、関連する計算ハードウェアの炭素フットプリントを例示的に推定し、グリーンAIの手法と、その原理を広く採用するための方法をさらに調査する必要があることを強調する。 AIを活用することで、AI4greenAIという独自の環境課題を軽減できると考えています。

The immense technological progress in artificial intelligence research and applications is increasingly drawing attention to the environmental sustainability of such systems, a field that has been termed Green AI. With this contribution we aim to broaden the discourse on Green AI by investigating the current status of approaches to both environmental assessment and ecodesign of AI systems. We propose a life-cycle-based system thinking approach that accounts for the four key elements of these software-hardware-systems: model, data, server, and cloud. We conduct an exemplary estimation of the carbon footprint of relevant compute hardware and highlight the need to further investigate methods for Green AI and ways to facilitate wide-spread adoption of its principles. We envision that AI could be leveraged to mitigate its own environmental challenges, which we denote as AI4greenAI.
翻訳日:2024-07-22 12:59:07 公開日:2024-05-01
# Course Assist:コンピュータサイエンス教育のための適切な質問回答システム

CourseAssist: Pedagogically Appropriate Question Answering System for Computer Science Education ( http://arxiv.org/abs/2407.10246v1 )

ライセンス: Link先を確認
Ty Feng, (参考訳) コンピュータサイエンスコースへの入学の増加とクラスサイズの増大は、学生の学習を適切に支援するために、スケーラブルで自動化されたチューリングソリューションを必要とする。 GPT-3.5のようなLarge Language Models (LLMs) は、質問応答を通して学生を支援する可能性を示しているが、教育者は、学生がLLMを誤用したり、不正確な回答を学生に与えていることを懸念している。 本稿では,コンピュータサイエンス教育に適したLLMベースの授業システムであるCourseAssistを紹介する。 一般的なLLMシステムとは異なり、CourseAssistは、ユーザ意図の分類と後処理とともに検索強化世代を活用し、応答が特定のコース学習目標に合致することを保証し、教育環境におけるLLMの教育的適切性に対処する。 GPT 3.5のベースラインに対するCourseAssistの評価には,プログラム言語コースから50対の質問応答対のデータセットを用いて,有用性,正確性,教育的適切性の基準に着目した。 評価の結果,CourseAssistはベースラインを著しく上回り,効果的な学習アシスタントとして機能する可能性が示された。 この研究は、LLMベースの教育ツールにおける意図的な設計思想の重要性を強調するだけでなく、特に現実世界のシナリオにおけるそのようなシステムとのユーザインタラクションの理解や、LLMベースの教育システムへの人間教育者の統合など、将来の研究への道を開く。

The growing enrollments in computer science courses and increase in class sizes necessitate scalable, automated tutoring solutions to adequately support student learning. While Large Language Models (LLMs) like GPT-3.5 have demonstrated potential in assisting students through question-answering, educators have significant concerns about students misusing LLMs or LLMs misleading students with inaccurate answers. This paper introduces CourseAssist, a novel LLM-based tutoring system tailored for computer science education. Unlike generic LLM systems, CourseAssist leverages retrieval-augmented generation along with user intent classification and post-processing to ensure that responses align with specific course learning goals, thereby addressing the pedagogical appropriateness of LLMs in educational settings. I evaluate CourseAssist against a baseline of GPT 3.5 using a dataset of 50 question-answer pairs from a programming languages course, focusing on the criteria of usefulness, accuracy, and pedagogical appropriateness. Evaluation results show that CourseAssist significantly outperforms the baseline, demonstrating its potential to serve as an effective learning assistant. This work not only highlights the importance of deliberate design considerations in LLM-based educational tools but also opens up avenues for future research, particularly in understanding user interactions with such systems in real-world scenarios and integrating human educators into LLM-based tutoring systems.
翻訳日:2024-07-22 12:59:07 公開日:2024-05-01
# vMCU:MCU上のDNN推論のための協調メモリ管理とカーネル最適化

vMCU: Coordinated Memory Management and Kernel Optimization for DNN Inference on MCUs ( http://arxiv.org/abs/2406.06542v1 )

ライセンス: Link先を確認
Size Zheng, Renze Chen, Meng Li, Zihao Ye, Luis Ceze, Yun Liang, (参考訳) マイクロコントローラユニット(MCU)に基づくIoTデバイスは、ニアセンサー深層学習モデル(DNN)のための超低消費電力とユビキタスな計算を提供する。 しかし、MCUのメモリは通常、モバイルデバイスよりも2~3桁小さいため、DNNをMCUにマップすることは困難である。 以前の作業では、MCUのメモリ管理とカーネル実装を分離し、メモリ消費を減らすためにインプレース更新のような粗い粒度のメモリ管理技術に依存していた。 本稿では,MCU上でのDNN推論におけるメモリ管理とカーネル最適化のコーディネートを提案し,メモリ管理の微粒化を実現する。 鍵となる考え方は、MCUの限られたメモリを大きなメモリプールとして仮想化することである。 各カーネルはメモリプールをカーネル固有のセグメントに分割し、DNN層を計算しながらセグメントのロードとストアを処理する。 粒度の細かいメモリ制御を使用することで、異なるテンソルのメモリフットプリントを同時に実現することなく重畳することができるため、メモリ消費量を削減できる。 このアイデアに従うと、MCU 上で DNN 推論のために \ours{} を実装します。 ARM Cortex-M4 および Cortex-M7 プロセッサ上の単一層の評価では、 \ours{} は、最先端の作業と比較して、$12.0\% から$49.5\% まで、そして$20.6\% から$53.0\% まで削減可能である。 DNNの完全な評価のために、 \ours{} は 61.5\%$ のメモリボトルネックを減らし、ローエンドの MCU により多くのモデルをデプロイできる。

IoT devices based on microcontroller units (MCU) provide ultra-low power consumption and ubiquitous computation for near-sensor deep learning models (DNN). However, the memory of MCU is usually 2-3 orders of magnitude smaller than mobile devices, which makes it challenging to map DNNs onto MCUs. Previous work separates memory management and kernel implementation for MCU and relies on coarse-grained memory management techniques such as inplace update to reduce memory consumption. In this paper, we propose to coordinate memory management and kernel optimization for DNN inference on MCUs to enable fine-grained memory management. The key idea is to virtualize the limited memory of MCU as a large memory pool. Each kernel divides the memory pool into kernel-specific segments and handles segment load and store while computing DNN layers. Memory consumption can be reduced because using the fine-grained segment-level memory control, we can overlap the memory footprint of different tensors without the need to materialize them at the same time. Following this idea, we implement \ours{} for DNN inference on MCU. Evaluation for single layers on ARM Cortex-M4 and Cortex-M7 processors shows that \ours{} can reduce from $12.0\%$ to $49.5\%$ RAM usage and from $20.6\%$ to $53.0\%$ energy consumption compared to state-of-the-art work. For full DNN evaluation, \ours{} can reduce the memory bottleneck by $61.5\%$, enabling more models to be deployed on low-end MCUs.
翻訳日:2024-07-01 08:00:19 公開日:2024-05-01
# 大規模言語モデルを用いた科学文献からの化学物質安全性の抽出

Extracting chemical food safety hazards from the scientific literature automatically using large language models ( http://arxiv.org/abs/2405.15787v1 )

ライセンス: Link先を確認
Neris Özen, Wenjuan Mu, Esther D. van Asselt, Leonieke M. van den Bulk, (参考訳) 食品安全分野の科学論文の数は、ここ数十年間一貫して増えている。 そのため、食品安全の専門家は、食品の安全性と食品連鎖における危険の発生に関連するすべての文献を読むことは不可能になっている。 しかし、食品安全の専門家が最新の発見を認識し、容易かつ簡潔な方法でこの情報にアクセスできることが重要である。 本研究では, 大規模言語モデルを用いて, 科学的文献から化学物質を抽出する手法を提案する。 大規模言語モデルは最初から使われ、科学的な抽象論に適用され、モデルや大規模コンピューティングクラスタの余分な訓練は不要であった。 モデルのプロンプトの3つの異なるスタイルがテストされ、どのタスクが最も最適かが評価された。 試薬は2種類の検証食品(リーフグリーンと貝類)で最適化し,3種類の試験食品(乳製品,トウモロコシ,サケ)を用いて最適なプロンプトの最終的な性能を評価した。 プロンプトの特定の表現は結果にかなりの影響を及ぼすことがわかった。 タスクを小さなステップに分割するプロンプトは、全体として最もうまく機能した。 このプロンプトは、平均93%の精度に達し、すでに食品監視プログラムに含まれている多くの化学物質が含まれており、食品安全領域の有害物の検索に成功している。 その結果,学術文献から情報を自動的に抽出する作業において,大規模言語モデルがいかに有用かが示された。

The number of scientific articles published in the domain of food safety has consistently been increasing over the last few decades. It has therefore become unfeasible for food safety experts to read all relevant literature related to food safety and the occurrence of hazards in the food chain. However, it is important that food safety experts are aware of the newest findings and can access this information in an easy and concise way. In this study, an approach is presented to automate the extraction of chemical hazards from the scientific literature through large language models. The large language model was used out-of-the-box and applied on scientific abstracts; no extra training of the models or a large computing cluster was required. Three different styles of prompting the model were tested to assess which was the most optimal for the task at hand. The prompts were optimized with two validation foods (leafy greens and shellfish) and the final performance of the best prompt was evaluated using three test foods (dairy, maize and salmon). The specific wording of the prompt was found to have a considerable effect on the results. A prompt breaking the task down into smaller steps performed best overall. This prompt reached an average accuracy of 93% and contained many chemical contaminants already included in food monitoring programs, validating the successful retrieval of relevant hazards for the food safety domain. The results showcase how valuable large language models can be for the task of automatic information extraction from the scientific literature.
翻訳日:2024-06-02 14:39:48 公開日:2024-05-01
# 量子制御のためのグラフェン準曲面の深層学習設計とディラック電子ホログラフィー

Deep-learning design of graphene metasurfaces for quantum control and Dirac electron holography ( http://arxiv.org/abs/2405.05975v1 )

ライセンス: Link先を確認
Chen-Di Han, Li-Li Ye, Zin Lin, Vassilios Kovanis, Ying-Cheng Lai, (参考訳) メタサーフェス(Metagrounds)は、物理系の波を制御するためのサブ波長パターンの層である。 光学では、メタ表面は異なる誘電率を持つ材料によって生成され、非伝統的な機能を持つ。 電子波制御のためのディラック・マテリアル・メタ曲面設計のための深層学習フレームワークを開発した。 準曲面は、それぞれが電位によって生成される円形グラフェン量子ドットの構成である。 深部畳み込みニューラルネットワークを用いて、元の散乱波を95$\%以上の忠実度で再構成できることが示され、ディラック電子ホログラフィーの可能性が示唆された。 平面波生成、設計ブロードバンド、多機能グラフェン変成層システムなどの応用を解説する。

Metasurfaces are sub-wavelength patterned layers for controlling waves in physical systems. In optics, meta-surfaces are created by materials with different dielectric constants and are capable of unconventional functionalities. We develop a deep-learning framework for Dirac-material metasurface design for controlling electronic waves. The metasurface is a configuration of circular graphene quantum dots, each created by an electric potential. Employing deep convolutional neural networks, we show that the original scattering wave can be reconstructed with fidelity over 95$\%$, suggesting the feasibility of Dirac electron holography. Additional applications such as plane wave generation, designing broadband, and multi-functionality graphene metasurface systems are illustrated.
翻訳日:2024-05-27 03:32:54 公開日:2024-05-01
# コミュニティパームモデル

A community palm model ( http://arxiv.org/abs/2405.09530v1 )

ライセンス: Link先を確認
Nicholas Clinton, Andreas Vollrath, Remi D'annunzio, Desheng Liu, Henry B. Glick, Adrià Descals, Alicia Sullivan, Oliver Guinan, Jacob Abramowitz, Fred Stolle, Chris Goodman, Tanya Birch, David Quinn, Olga Danylo, Tijs Lips, Daniel Coelho, Enikoe Bihari, Bryce Cronkite-Ratcliff, Ate Poortinga, Atena Haghighattalab, Evan Notman, Michael DeWitt, Aaron Yonas, Gennadii Donchyts, Devaja Shah, David Saah, Karis Tenneson, Nguyen Hanh Quyen, Megha Verma, Andrew Wilcox, (参考訳) パーム油の生産は熱帯諸国の森林破壊の主要な要因の1つと認識されている。 サプライチェーンの目的を満たすため、商品生産者と他の利害関係者は、サプライチェーンにおける土地被覆動態のタイムリーな情報を必要としている。 しかし、サプライチェーンや生産場所のデジタル地理的表示が欠けているサプライヤから取得することは困難である。 ここでは,多種多様な利害関係者から得られたプールデータに基づいて学習された機械学習モデルである「コミュニティモデル」について述べる。 この手法の利点は、様々な入力を含めることであり、新しいトレーニングデータが利用可能になると容易にモデルを更新でき、入力画像が利用可能な年ごとにモデルを実行することができる。 多様なデータソースを1つの確率マップに含めることによって、土地被覆や商品(この場合はオイルパーム)の存在と欠如について、利害関係者間で共通理解を確立することができる。 モデル予測器は、Sentinel-1、Sentinel-2、ALOS DSMによって公開されている衛星画像から作られた年次合成装置である。 与えられたピクセルのヤシの確率としてマップ出力を提供し、根底にある状態(パルムかパームでないか)の不確かさを反映する。 このモデルの初期バージョンは、空間的に分割されたテストデータから約90%(0.5の確率閾値で)と推定される大域的精度を提供する。 このモデルと結果のオイルパーム確率マップ生成物は、ヤシ栽培の地理的フットプリントを正確に同定するのに有用である。 このヤシモデルは、森林破壊情報と連動して、敏感な森林地帯で継続するヤシの植林拡大のリスクを理解するのに有用である。

Palm oil production has been identified as one of the major drivers of deforestation for tropical countries. To meet supply chain objectives, commodity producers and other stakeholders need timely information of land cover dynamics in their supply shed. However, such data are difficult to obtain from suppliers who may lack digital geographic representations of their supply sheds and production locations. Here we present a "community model," a machine learning model trained on pooled data sourced from many different stakeholders, to develop a specific land cover probability map, in this case a semi-global oil palm map. An advantage of this method is the inclusion of varied inputs, the ability to easily update the model as new training data becomes available and run the model on any year that input imagery is available. Inclusion of diverse data sources into one probability map can help establish a shared understanding across stakeholders on the presence and absence of a land cover or commodity (in this case oil palm). The model predictors are annual composites built from publicly available satellite imagery provided by Sentinel-1, Sentinel-2, and ALOS DSM. We provide map outputs as the probability of palm in a given pixel, to reflect the uncertainty of the underlying state (palm or not palm). The initial version of this model provides global accuracy estimated to be approximately 90% (at 0.5 probability threshold) from spatially partitioned test data. This model, and resulting oil palm probability map products are useful for accurately identifying the geographic footprint of palm cultivation. Used in conjunction with timely deforestation information, this palm model is useful for understanding the risk of continued oil palm plantation expansion in sensitive forest areas.
翻訳日:2024-05-27 03:17:55 公開日:2024-05-01
# ISO/IEC TS 27560:2023 GDPR と DGA の合意書

Implementing ISO/IEC TS 27560:2023 Consent Records and Receipts for GDPR and DGA ( http://arxiv.org/abs/2405.04528v1 )

ライセンス: Link先を確認
Harshvardhan J. Pandit, Jan Lindquist, Georg P. Krog, (参考訳) ISO/IEC TS 27560:2023 プライバシ技術 - コンセント記録情報構造は、機械可読情報としての同意に関する記録の作成と維持のためのガイダンスを提供する。 また、この情報を用いて「受信者」という形でエンティティ間で記録を交換する際のガイダンスも提供する。 本稿では、ISO/IEC TS 27560:2023、ISO/IEC 29184:2020 Privacy Notices、EUのGDPR(General Data Protection Regulation)の同意要件を比較し、これらの標準がGDPR準拠をサポートするためにどのように使用できるかを示す。 次に、データプライバシー語彙(DPV)を使用して、ISO/IEC TS 27560:2023を実装し、相互運用可能な同意記録とレシートを作成します。 また、この作業がEUデータガバナンス法(DGA)の実装にどのような恩恵をもたらすかについても論じる。

The ISO/IEC TS 27560:2023 Privacy technologies - Consent record information structure provides guidance for the creation and maintenance of records regarding consent as machine-readable information. It also provides guidance on the use of this information to exchange such records between entities in the form of 'receipts'. In this article, we compare requirements regarding consent between ISO/IEC TS 27560:2023, ISO/IEC 29184:2020 Privacy Notices, and the EU's General Data Protection Regulation (GDPR) to show how these standards can be used to support GDPR compliance. We then use the Data Privacy Vocabulary (DPV) to implement ISO/IEC TS 27560:2023 and create interoperable consent records and receipts. We also discuss how this work benefits the the implementation of EU Data Governance Act (DGA), specifically for machine-readable consent forms.
翻訳日:2024-05-08 13:11:46 公開日:2024-05-01
# 統計的・機械学習手法を用いた高度開発指数国におけるCO_2排出分析の総合的アプローチ

A Comprehensive Approach to Carbon Dioxide Emission Analysis in High Human Development Index Countries using Statistical and Machine Learning Techniques ( http://arxiv.org/abs/2405.02340v1 )

ライセンス: Link先を確認
Hamed Khosravi, Ahmed Shoyeb Raihan, Farzana Islam, Ashish Nimbarte, Imtiaz Ahmed, (参考訳) 二酸化炭素(CO2)排出量の削減は、気候変動を悪化させる上で重要な役割を担っているため、世界と国家レベルでは不可欠である。 様々な産業や経済活動に由来するCO2排出量は、温室効果と地球温暖化に大きく寄与し、気候変動問題に対処する上で大きな障害となっている。 世界規模の二酸化炭素排出量を効果的に削減するためには、二酸化炭素排出量の傾向を予測し、その排出量パターンに基づいて国を分類することが不可欠だ」と述べた。 本稿では,HDI(Human Development Index)を有する20カ国におけるCO2排出量の決定要因について,25年間にわたる経済,環境,エネルギー利用,再生可能資源に関連する要因について,詳細な比較研究を行った。 この研究は、2つの異なる段階に展開される: 最初は、通常の最小方形(OLS)、固定効果、ランダム効果モデルなどの統計技術が、CO2排出量の重要な決定要因の特定に適用される。 この研究は、教師付きおよび教師なし機械学習(ML)手法を利用して、CO2排出に影響を与える要因をさらに精査し理解する。 教師付きMLモデルである eXogenous variables (SARIMAX) を用いた季節的自己回帰統合移動平均は、まず歴史的データから放射傾向を予測するために使われ、政策定式化のための実用的な洞察を提供する。 その後、非教師なし学習手法である動的時間温暖化(DTW)が、同様のエミッションパターンによって各国のグループ化に使用される。 本研究で利用した2相アプローチは,CO2排出予測の精度を著しく向上するとともに,地球規模の排出動向についてより深い知見を提供する。 この徹底的な分析枠組みを採用することで、各国はより集中的で効果的な炭素削減政策を展開でき、気候変動と戦う世界的なイニシアチブにおいて重要な役割を果たす。

Reducing Carbon dioxide (CO2) emission is vital at both global and national levels, given their significant role in exacerbating climate change. CO2 emission, stemming from a variety of industrial and economic activities, are major contributors to the greenhouse effect and global warming, posing substantial obstacles in addressing climate issues. It's imperative to forecast CO2 emission trends and classify countries based on their emission patterns to effectively mitigate worldwide carbon emission. This paper presents an in-depth comparative study on the determinants of CO2 emission in twenty countries with high Human Development Index (HDI), exploring factors related to economy, environment, energy use, and renewable resources over a span of 25 years. The study unfolds in two distinct phases: initially, statistical techniques such as Ordinary Least Squares (OLS), fixed effects, and random effects models are applied to pinpoint significant determinants of CO2 emission. Following this, the study leverages supervised and unsupervised machine learning (ML) methods to further scrutinize and understand the factors influencing CO2 emission. Seasonal AutoRegressive Integrated Moving Average with eXogenous variables (SARIMAX), a supervised ML model, is first used to predict emission trends from historical data, offering practical insights for policy formulation. Subsequently, Dynamic Time Warping (DTW), an unsupervised learning approach, is used to group countries by similar emission patterns. The dual-phase approach utilized in this study significantly improves the accuracy of CO2 emission predictions while also providing a deeper insight into global emission trends. By adopting this thorough analytical framework, nations can develop more focused and effective carbon reduction policies, playing a vital role in the global initiative to combat climate change.
翻訳日:2024-05-07 20:29:40 公開日:2024-05-01
# 正確な頸部癌画像分類のためのDeep Learning Descriptor Hybridizationと特徴量削減

Deep Learning Descriptor Hybridization with Feature Reduction for Accurate Cervical Cancer Colposcopy Image Classification ( http://arxiv.org/abs/2405.01600v1 )

ライセンス: Link先を確認
Saurabh Saini, Kapil Ahuja, Siddartha Chennareddy, Karthik Boddupalli, (参考訳) 頸部がんは女性死亡の主な原因であり、早期診断と先天的な疾患の予防治療を可能にするための定期的なスクリーニングの必要性を強調している。 細胞分化が起こる子宮頸部の形質転換帯は異常の検出において重要な役割を担っている。 大腸内視鏡検査は, 子宮頸癌予防の重要ツールとして注目されている。 しかし、視覚評価における課題は、コンピュータ支援診断(CAD)システムの開発を必要とする。 本稿では,様々なディープラーニング記述子(ResNet50,ResNet101,ResNet152)の長所と,適切な特徴正規化(min-max)と特徴低減技術(LDA)を組み合わせたCADシステムを提案する。 異なる記述子の組み合わせにより、すべての特徴(エッジやカラー、ハイレベルな形状やテクスチャ)がキャプチャされ、特徴正規化はバイアス学習を防ぎ、特徴の縮小は過度な適合を避ける。 WHOが提供したIARCデータセットについて実験を行った。 データセットは最初セグメンテーションされ、バランスを取る。 本手法は,通常の分類と型分類の両方において,97%-100%の範囲での例外的な性能を実現する。 同じデータセット上の型分類の競合的アプローチは81%-91%のパフォーマンスを達成した。

Cervical cancer stands as a predominant cause of female mortality, underscoring the need for regular screenings to enable early diagnosis and preemptive treatment of pre-cancerous conditions. The transformation zone in the cervix, where cellular differentiation occurs, plays a critical role in the detection of abnormalities. Colposcopy has emerged as a pivotal tool in cervical cancer prevention since it provides a meticulous examination of cervical abnormalities. However, challenges in visual evaluation necessitate the development of Computer Aided Diagnosis (CAD) systems. We propose a novel CAD system that combines the strengths of various deep-learning descriptors (ResNet50, ResNet101, and ResNet152) with appropriate feature normalization (min-max) as well as feature reduction technique (LDA). The combination of different descriptors ensures that all the features (low-level like edges and colour, high-level like shape and texture) are captured, feature normalization prevents biased learning, and feature reduction avoids overfitting. We do experiments on the IARC dataset provided by WHO. The dataset is initially segmented and balanced. Our approach achieves exceptional performance in the range of 97%-100% for both the normal-abnormal and the type classification. A competitive approach for type classification on the same dataset achieved 81%-91% performance.
翻訳日:2024-05-06 16:58:34 公開日:2024-05-01
# 効率的なサンプル特異的エンコーダ摂動

Efficient Sample-Specific Encoder Perturbations ( http://arxiv.org/abs/2405.01601v1 )

ライセンス: Link先を確認
Yassir Fathullah, Mark J. F. Gales, (参考訳) Encoder-decoderファウンデーションモデルは、さまざまな自動回帰シーケンスタスクに対して最先端のパフォーマンスを示す。 本稿では,そのようなシステムに対して,興味のある特定の属性に応じて動作を制御するための,シンプルで軽量な修正を提案する。 本稿では,エンコーダ・デコーダシステムの動作を興味のある属性に応じて変更するための,新しい推論効率のアプローチを提案する。 具体的には,凍結基盤モデルのエンコーダ出力のサンプル・バイ・サンプル・イン・サンプルの摂動を求めるために,小さなプロキシ・ネットワークを用いてデコーダをトリガーし,改良されたデコーダを生成することを示す。 本研究は,機械翻訳におけるFlan-T5のCOMET性能向上と,音声認識におけるWhisper基礎モデルのWERに着目した,このフレームワークの具体的実現について検討する。 その結果、COMETとWERで評価された性能が一貫した改善を示した。 さらに、実験により、プロキシはトレーニングに使用するデータの正確な性質に対して堅牢であり、他のドメインにも拡張可能であることも示している。

Encoder-decoder foundation models have displayed state-of-the-art performance on a range of autoregressive sequence tasks. This paper proposes a simple and lightweight modification to such systems to control the behaviour according to a specific attribute of interest. This paper proposes a novel inference-efficient approach to modifying the behaviour of an encoder-decoder system according to a specific attribute of interest. Specifically, we show that a small proxy network can be used to find a sample-by-sample perturbation of the encoder output of a frozen foundation model to trigger the decoder to generate improved decodings. This work explores a specific realization of this framework focused on improving the COMET performance of Flan-T5 on Machine Translation and the WER of Whisper foundation models on Speech Recognition. Results display consistent improvements in performance evaluated through COMET and WER respectively. Furthermore, experiments also show that the proxies are robust to the exact nature of the data used to train them and can extend to other domains.
翻訳日:2024-05-06 15:04:28 公開日:2024-05-01
# KITE:カーネルに基づく改良された転送可能性推定手法

KITE: A Kernel-based Improved Transferability Estimation Method ( http://arxiv.org/abs/2405.01603v1 )

ライセンス: Link先を確認
Yunhui Guo, (参考訳) 伝達可能性の推定は、伝達学習において重要な問題となっている。 転送可能性推定法は、事前学習されたモデルのセットを入力し、どの事前学習されたモデルが最高の転送学習性能を提供できるかを判断する。 既存の手法では、事前訓練されたモデルの出力を分析したり、事前訓練されたモデルと目標データセットで訓練されたプローブモデルを比較してこの問題に対処する。 しかし、信頼性と効率的な転送可能性の推定を提供するには不十分である。 本稿では,新しい視点を提示し,Kiteをカーネルベースで改良された転送可能性推定法として紹介する。 キートは、事前訓練された特徴の分離性と、事前訓練された特徴とランダムな特徴との類似性が、伝達可能性を評価するための2つの重要な要因である、というキーオブザーバーに基づいている。 カーネルメソッドにインスパイアされたKiteは、特徴分離性と特徴類似性を評価する効果的な方法として、カーネルアライメントを中心として採用している。 Kiteは簡単に解釈でき、高速に計算でき、ターゲットのデータセットサイズに対して堅牢である。 我々は,最近導入された大規模モデル選択ベンチマークを用いて,Kiteの性能を評価する。 ベンチマークには8つのソースデータセット、6つのターゲットデータセット、4つのアーキテクチャが含まれ、合計32のトレーニング済みモデルが含まれている。 その結果,Kiteは移動可能性推定の限界が大きいため,既存の手法よりも優れていた。

Transferability estimation has emerged as an important problem in transfer learning. A transferability estimation method takes as inputs a set of pre-trained models and decides which pre-trained model can deliver the best transfer learning performance. Existing methods tackle this problem by analyzing the output of the pre-trained model or by comparing the pre-trained model with a probe model trained on the target dataset. However, neither is sufficient to provide reliable and efficient transferability estimations. In this paper, we present a novel perspective and introduce Kite, as a Kernel-based Improved Transferability Estimation method. Kite is based on the key observations that the separability of the pre-trained features and the similarity of the pre-trained features to random features are two important factors for estimating transferability. Inspired by kernel methods, Kite adopts centered kernel alignment as an effective way to assess feature separability and feature similarity. Kite is easy to interpret, fast to compute, and robust to the target dataset size. We evaluate the performance of Kite on a recently introduced large-scale model selection benchmark. The benchmark contains 8 source dataset, 6 target datasets and 4 architectures with a total of 32 pre-trained models. Extensive results show that Kite outperforms existing methods by a large margin for transferability estimation.
翻訳日:2024-05-06 15:04:28 公開日:2024-05-01
# 深層強化学習を用いたポートフォリオ管理

Portfolio Management using Deep Reinforcement Learning ( http://arxiv.org/abs/2405.01604v1 )

ライセンス: Link先を確認
Ashish Anil Pawar, Vishnureddy Prashant Muskawar, Ritesh Tiku, (参考訳) アルゴリズムトレーディングまたは金融ロボットは複雑な統計トレーディング戦略を太くする能力を持って株式市場を征服してきた。 しかし、近年のディープラーニング技術の発展により、これらの戦略は非力化しつつある。 DQNとA2Cのモデルはこれまで、ゲームプレイやロボット工学において、卓越した人間よりも優れていた。 本研究では,資産への重み付けを補助するポートフォリオマネジャーを提案する。 環境はマネージャに、資産を長く、さらには短くする自由を与えます。 重み付けの助言はポートフォリオ資産の選択に限られており、ベンチマーク指標をノックするために経験的にテストされている。 マネジャーは、取引料金なしで仮定された流動市場で金融取引を行う。 この研究は、従来のポートフォリオマネージャのリスク調整されたリターンを超越して、ウェイトアロケーションを中心としたアクションを備えたポートフォリオマネージャを提案する。

Algorithmic trading or Financial robots have been conquering the stock markets with their ability to fathom complex statistical trading strategies. But with the recent development of deep learning technologies, these strategies are becoming impotent. The DQN and A2C models have previously outperformed eminent humans in game-playing and robotics. In our work, we propose a reinforced portfolio manager offering assistance in the allocation of weights to assets. The environment proffers the manager the freedom to go long and even short on the assets. The weight allocation advisements are restricted to the choice of portfolio assets and tested empirically to knock benchmark indices. The manager performs financial transactions in a postulated liquid market without any transaction charges. This work provides the conclusion that the proposed portfolio manager with actions centered on weight allocations can surpass the risk-adjusted returns of conventional portfolio managers.
翻訳日:2024-05-06 15:04:28 公開日:2024-05-01
# 劣化・復元アーチファクトの基準自由画像品質基準

Reference-Free Image Quality Metric for Degradation and Reconstruction Artifacts ( http://arxiv.org/abs/2405.02208v1 )

ライセンス: Link先を確認
Han Cui, Alfredo De Goyeneche, Efrat Shimron, Boyuan Ma, Michael Lustig, (参考訳) 画像品質評価(IQA)は、画像の劣化や超解像といった様々なコンピュータビジョンタスクに必須である。 しかし、ほとんどのIQAメソッドは参照画像を必要とするが、必ずしも利用できない。 参照なしIQAメトリクスはいくつかあるが、人間の知覚をシミュレートし、微妙な画像品質の変化を識別する制限がある。 JPEGの品質係数は画像品質測定の指標であると仮定し、事前の知識に基づいて画像劣化物を認識できるため、クリーンな参照を必要とせずに、よく訓練されたニューラルネットワークで画像品質を正確に評価することができると仮定する。 そこで我々は,参照不要な品質評価ネットワークであるQuality Factor (QF) Predictorを開発した。 我々のQF予測器は7層からなる軽量で完全な畳み込みネットワークである。 JPEG圧縮画像パッチを入力としてランダムQFを入力として受信し、対応するQFを正確に予測するように訓練する。 各種タスクに適用することで,モデルの汎用性を実証する。 まず、我々のQF予測器は、ガウスブラやガウスノイズなどの様々な画像アーティファクトの重症度を測定するために一般化することができる。 第2に、磁気共鳴画像(MRI)データから再構成した画像のアンダーサンプリング率を予測するために、QF予測器をトレーニングできることを示す。

Image Quality Assessment (IQA) is essential in various Computer Vision tasks such as image deblurring and super-resolution. However, most IQA methods require reference images, which are not always available. While there are some reference-free IQA metrics, they have limitations in simulating human perception and discerning subtle image quality variations. We hypothesize that the JPEG quality factor is representatives of image quality measurement, and a well-trained neural network can learn to accurately evaluate image quality without requiring a clean reference, as it can recognize image degradation artifacts based on prior knowledge. Thus, we developed a reference-free quality evaluation network, dubbed "Quality Factor (QF) Predictor", which does not require any reference. Our QF Predictor is a lightweight, fully convolutional network comprising seven layers. The model is trained in a self-supervised manner: it receives JPEG compressed image patch with a random QF as input, is trained to accurately predict the corresponding QF. We demonstrate the versatility of the model by applying it to various tasks. First, our QF Predictor can generalize to measure the severity of various image artifacts, such as Gaussian Blur and Gaussian noise. Second, we show that the QF Predictor can be trained to predict the undersampling rate of images reconstructed from Magnetic Resonance Imaging (MRI) data.
翻訳日:2024-05-06 12:16:37 公開日:2024-05-01
# プログラム依存学習による非競合セキュリティ批判データの同定

Identifying Non-Control Security-Critical Data through Program Dependence Learning ( http://arxiv.org/abs/2108.12071v2 )

ライセンス: Link先を確認
Zhilong Wang, Haizhou Wang, Hong Hu, Peng Liu, (参考訳) 制御フロー保護が広く展開されるにつれて、攻撃者が制御データを破損させ、制御フローのハイジャックを実現することは困難である。 代わりに、非制御データを操作するデータ指向攻撃は、実現可能で強力であることが示されている。 データ指向攻撃において、基本的なステップは、制御不能でセキュリティクリティカルなデータを特定することである。 しかし、クリティカルなデータ識別プロセスは従来の作業では拡張性がない。 そこで本研究では,従来のプログラム分析とディープラーニングを組み合わせた新しい手法を提案する。 より高度なレベルでは、アナリストが臨界データをどのように識別するかを調べることで、まず、臨界データの影響と相関するプログラムの意味(と特徴)を識別する動的解析アルゴリズムを提案する。 そして、重要なデータ識別タスクにおけるユニークな課題に動機付けられ、特徴を形式化し、その特徴を埋め込むためにカスタマイズされたプログラム依存グラフ(PDG)を使用する。 基礎的なプログラムのセマンティクスを学習するためにディープラーニングを用いた以前の研究とは異なり、この論文では、重要な変数がその影響を伝播する長い依存経路(PDG)をキャプチャできる特別なニューラルネットワークアーキテクチャを採用する。 我々は、完全に自動化されたツールチェーンを実装し、包括的な評価を行った。 評価の結果,本モデルでは90%の精度が得られた。 このツールチェーンは、Google FuzzBenchで80の潜在的クリティカル変数を明らかにする。 さらに,GDBによる7つのデータ指向攻撃をシミュレートすることにより,識別されたクリティカル変数を用いたエクスプロイトの有害性を実証した。

As control-flow protection gets widely deployed, it is difficult for attackers to corrupt control-data and achieve control-flow hijacking. Instead, data-oriented attacks, which manipulate non-control data, have been demonstrated to be feasible and powerful. In data-oriented attacks, a fundamental step is to identify non-control, security-critical data. However, critical data identification processes are not scalable in previous works, because they mainly rely on tedious human efforts to identify critical data. To address this issue, we propose a novel approach that combines traditional program analysis with deep learning. At a higher level, by examining how analysts identify critical data, we first propose dynamic analysis algorithms to identify the program semantics (and features) that are correlated with the impact of a critical data. Then, motivated by the unique challenges in the critical data identification task, we formalize the distinguishing features and use customized program dependence graphs (PDG) to embed the features. Different from previous works using deep learning to learn basic program semantics, this paper adopts a special neural network architecture that can capture the long dependency paths (in the PDG), through which a critical variable propagates its impact. We have implemented a fully-automatic toolchain and conducted comprehensive evaluations. According to the evaluations, our model can achieve 90% accuracy. The toolchain uncovers 80 potential critical variables in Google FuzzBench. In addition, we demonstrate the harmfulness of the exploits using the identified critical variables by simulating 7 data-oriented attacks through GDB.
翻訳日:2024-05-05 18:14:01 公開日:2024-05-01
# ニューラルネットワークのカタパルトダイナミクスを理解するための二次モデル

Quadratic models for understanding catapult dynamics of neural networks ( http://arxiv.org/abs/2205.11787v3 )

ライセンス: Link先を確認
Libin Zhu, Chaoyue Liu, Adityanarayanan Radhakrishnan, Mikhail Belkin, (参考訳) ニューラルネットワークは幅が大きくなるにつれて線形モデルによって近似できるが、広いニューラルネットワークの特定の特性は線形モデルでは捉えられない。 本研究では,最近提案されたニューラル・クアドラティック・モデルが,学習率の高いモデルをトレーニングする際に発生する"カタパルト・フェーズ"(Lewkowycz et al 2020)を提示できることを示す。 次に、ニューラル二次モデルの挙動が一般化において、特にカタパルト相状態において、ニューラルネットワークの挙動と平行していることを実証的に示す。 我々の分析は、二次モデルがニューラルネットワークの分析に有効なツールであることをさらに証明している。

While neural networks can be approximated by linear models as their width increases, certain properties of wide neural networks cannot be captured by linear models. In this work we show that recently proposed Neural Quadratic Models can exhibit the "catapult phase" [Lewkowycz et al. 2020] that arises when training such models with large learning rates. We then empirically show that the behaviour of neural quadratic models parallels that of neural networks in generalization, especially in the catapult phase regime. Our analysis further demonstrates that quadratic models can be an effective tool for analysis of neural networks.
翻訳日:2024-05-03 22:58:28 公開日:2024-05-01
# マウスの運動動態バイオメトリックス : 調査

Mouse Dynamics Behavioral Biometrics: A Survey ( http://arxiv.org/abs/2208.09061v2 )

ライセンス: Link先を確認
Simon Khan, Charles Devlen, Michael Manno, Daqing Hou, (参考訳) 日々の生活におけるインターネットの利用は、データやシステムのプライバシーとセキュリティの面で脆弱になっている。 そのため、コストが低く、控えめで、理想的にはユビキタスな認証機構を改善することで、データやシステムを保護する必要性が高まっている。 マウス・ダイナミクス(GUIでのマウスの動作)やウィジェット・インタラクション(リンク、ボタン、コンボボックスなどのGUIインタラクションのターゲット(ウィジェット)も考慮するマウス・ダイナミクスと密接に関連する他のモード)のような振る舞いのバイオメトリック・モダリティは、個々の特徴に基づいて個人を区別する能力によって、既存の認証システムのセキュリティを活性化することができる。 結果として、偽造者がこれらの行動バイオメトリックスを偽造することは困難であり、認証に適している。 本稿では,1897年から2023年までのマウスのダイナミクスとウィジェットの相互作用に関する文献を調査する。 本調査は,行動バイオメトリックスに関する心理学的視点から開始する。 データ収集のためのタスクと実験的な設定、原属性の分類、特徴抽出と数学的定義、公開データセット、アルゴリズム(統計学、機械学習、ディープラーニング)、データ融合、パフォーマンス、制限。 最後に,課題の提示と有望な研究機会で論文を締めくくる。

Utilization of the Internet in our everyday lives has made us vulnerable in terms of privacy and security of our data and systems. Therefore, there is a pressing need to protect our data and systems by improving authentication mechanisms, which are expected to be low cost, unobtrusive, and ideally ubiquitous in nature. Behavioral biometric modalities such as mouse dynamics (mouse behaviors on a graphical user interface (GUI)) and widget interactions (another modality closely related to mouse dynamics that also considers the target (widget) of a GUI interaction, such as links, buttons, and combo-boxes) can bolster the security of existing authentication systems because of their ability to distinguish an individual based on their unique features. As a result, it can be difficult for an imposter to impersonate these behavioral biometrics, making them suitable for authentication. In this paper, we survey the literature on mouse dynamics and widget interactions dated from 1897 to 2023. We begin our survey with an account of the psychological perspectives on behavioral biometrics. We then analyze the literature along the following dimensions: tasks and experimental settings for data collection, taxonomy of raw attributes, feature extractions and mathematical definitions, publicly available datasets, algorithms (statistical, machine learning, and deep learning), data fusion, performance, and limitations. Lastly, we end the paper with presenting challenges and promising research opportunities.
翻訳日:2024-05-03 22:58:28 公開日:2024-05-01
# スペクトル正則化カーネル2サンプル試験

Spectral Regularized Kernel Two-Sample Tests ( http://arxiv.org/abs/2212.09201v3 )

ライセンス: Link先を確認
Omar Hagrass, Bharath K. Sriperumbudur, Bing Li, (参考訳) 過去10年間で、一般(すなわち非ユークリッド領域)における非パラメトリックテスト問題に取り組むために多くの人気を得たアプローチは、確率分布を埋め込むカーネルヒルベルト空間(RKHS)の再生の概念に基づいている。 私たちの研究の主な目的は、このアプローチに基づいて構築された2サンプルテストの最適性を理解することです。 まず,Helinger 距離で測定された分離境界の点から,MMD (maximum mean discrepancy) の2サンプル試験が最適でないことを示す。 第2に, スペクトル正則化に基づくMDDテストの修正を提案し, 共分散情報(MDDテストでは捕捉されない)を考慮し, MMDテストよりも分離境界が小さく, 最適であることを示す。 第3に、正規化パラメータを選択し、適応テストが対数係数までほぼ極小であることを示すためのデータ駆動型戦略を含む、上記のテストの適応バージョンを提案する。 さらに, テストしきい値がエレガントに選択されるテストの置換変種について, サンプルの置換により検討した。 合成および実データに関する数値実験を通じて,本論文におけるMDD試験および他の一般的な試験と比較して,提案試験の優れた性能を示す。

Over the last decade, an approach that has gained a lot of popularity to tackle nonparametric testing problems on general (i.e., non-Euclidean) domains is based on the notion of reproducing kernel Hilbert space (RKHS) embedding of probability distributions. The main goal of our work is to understand the optimality of two-sample tests constructed based on this approach. First, we show the popular MMD (maximum mean discrepancy) two-sample test to be not optimal in terms of the separation boundary measured in Hellinger distance. Second, we propose a modification to the MMD test based on spectral regularization by taking into account the covariance information (which is not captured by the MMD test) and prove the proposed test to be minimax optimal with a smaller separation boundary than that achieved by the MMD test. Third, we propose an adaptive version of the above test which involves a data-driven strategy to choose the regularization parameter and show the adaptive test to be almost minimax optimal up to a logarithmic factor. Moreover, our results hold for the permutation variant of the test where the test threshold is chosen elegantly through the permutation of the samples. Through numerical experiments on synthetic and real data, we demonstrate the superior performance of the proposed test in comparison to the MMD test and other popular tests in the literature.
翻訳日:2024-05-03 22:49:30 公開日:2024-05-01
# 大規模言語モデルのための透かし

A Watermark for Large Language Models ( http://arxiv.org/abs/2301.10226v4 )

ライセンス: Link先を確認
John Kirchenbauer, Jonas Geiping, Yuxin Wen, Jonathan Katz, Ian Miers, Tom Goldstein, (参考訳) 大きな言語モデルの潜在的な害は、透かしモデル出力、すなわち、人間の目に見えないが短いトークンからアルゴリズムで検出可能な生成されたテキストに信号を埋め込むことによって緩和することができる。 本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。 透かしはテキストの品質に無視できる影響で埋め込むことができ、言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。 ウォーターマークは、単語が生成される前にランダム化された「グリーン」トークンのセットを選択し、それからサンプリング中にグリーントークンの使用をソフトに促進することで機能する。 我々は,解釈可能なp値で透かしを検出する統計的テストを提案し,透かしの感度を解析するための情報理論の枠組みを導出する。 我々は,Open Pretrained Transformer (OPT) ファミリーのマルチビリオンパラメータモデルを用いて透かしを検証し,堅牢性とセキュリティについて議論する。

Potential harms of large language models can be mitigated by watermarking model output, i.e., embedding signals into generated text that are invisible to humans but algorithmically detectable from a short span of tokens. We propose a watermarking framework for proprietary language models. The watermark can be embedded with negligible impact on text quality, and can be detected using an efficient open-source algorithm without access to the language model API or parameters. The watermark works by selecting a randomized set of "green" tokens before a word is generated, and then softly promoting use of green tokens during sampling. We propose a statistical test for detecting the watermark with interpretable p-values, and derive an information-theoretic framework for analyzing the sensitivity of the watermark. We test the watermark using a multi-billion parameter model from the Open Pretrained Transformer (OPT) family, and discuss robustness and security.
翻訳日:2024-05-03 22:49:30 公開日:2024-05-01
# ニュートン重力場における量子時計の時間拡張

Time dilation of quantum clocks in a Newtonian gravitational field ( http://arxiv.org/abs/2304.04281v4 )

ライセンス: Link先を確認
Tommaso Favalli, Augusto Smerzi, (参考訳) 球状質量によって生成されたニュートン重力場と相互作用する2つの非相対論的量子時計を考える。 Page and Wootters アプローチの枠組みでは、クロックの時間状態の時間拡張を導出する。 遅延はシュワルツシルト計量から得られる重力時間拡張と一階まで一致している。 この結果は相対論的重力ポテンシャル(英語版)(relativistic gravity potential)を考えることで拡張できる:この場合、正確なシュワルツシルト解との一致を得る。

We consider two non-relativistic quantum clocks interacting with a Newtonian gravitational field produced by a spherical mass. In the framework of Page and Wootters approach, we derive a time dilation for the time states of the clocks. The delay is in agreement up to first order with the gravitational time dilation obtained from the Schwarzschild metric. This result can be extended by considering the relativistic gravitational potential: in this case we obtain the agreement with the exact Schwarzschild solution.
翻訳日:2024-05-03 22:49:30 公開日:2024-05-01
# 効率的なグループ同変畳み込みニューラルネットワークのためのモンテカルロ強化分解フィルタの適応アグリゲーション

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network ( http://arxiv.org/abs/2305.10110v3 )

ライセンス: Link先を確認
Wenzhao Zhao, Barbara D. Wichtmann, Steffen Albert, Angelika Maurer, Frank G. Zöllner, Ulrike Attenberger, Jürgen Hesser, (参考訳) グループ等価畳み込みニューラルネットワーク(G-CNN)は、CNNのデータ効率と性能を向上させるためにパラメータ共有に大きく依存している。 しかし、パラメータ共有戦略は、各追加パラメータの計算負担を大幅に増加させ、ディープニューラルネットワークモデルへの応用を阻害する。 本稿では,群同変ニューラルネットワークに対する非パラメータ共有手法を提案することにより,これらの問題に対処する。 提案手法は,確率的に拡張された分解フィルタの重み付け和により,多種多様なフィルタを適応的に集約する。 連続群畳み込みが我々の方法によってどのように近似できるかに関する理論的証明を与える。 本手法は,モンテカルロサンプリング法とブートストラップ再サンプリング法を用いて,連続群と離散群の両方に適用する。 提案手法が標準CNNの効率的な拡張であることを示す。 群同分散試験実験は,パラメータ共有群同変ネットワークよりも優れた性能が得られることを示す。 画像分類と画像復号化タスクの実験では,特定のシナリオにおいて,適切なフィルタベースを用いて,標準的なCNNの性能向上と,効率的な軽量画像復号化ネットワークの構築を支援する。 コードはhttps://github.com/ZhaoWenzhao/MCG_CNNで入手できる。

Group-equivariant convolutional neural networks (G-CNN) heavily rely on parameter sharing to increase CNN's data efficiency and performance. However, the parameter-sharing strategy greatly increases the computational burden for each added parameter, which hampers its application to deep neural network models. In this paper, we address these problems by proposing a non-parameter-sharing approach for group equivariant neural networks. The proposed methods adaptively aggregate a diverse range of filters by a weighted sum of stochastically augmented decomposed filters. We give theoretical proof about how the continuous group convolution can be approximated by our methods. Our method applies to both continuous and discrete groups, where the augmentation is implemented using Monte Carlo sampling and bootstrap resampling, respectively. We demonstrate that our methods serve as an efficient extension of standard CNN. Experiments on group equivariance tests show how our methods can achieve superior performance to parameter-sharing group equivariant networks. Experiments on image classification and image denoising tasks show that in certain scenarios, with a suitable set of filter bases, our method helps improve the performance of standard CNNs and build efficient lightweight image denoising networks. The code will be available at https://github.com/ZhaoWenzhao/MCG_CNN.
翻訳日:2024-05-03 22:39:45 公開日:2024-05-01
# 大規模言語モデルを用いた反復的翻訳再構成

Iterative Translation Refinement with Large Language Models ( http://arxiv.org/abs/2306.03856v2 )

ライセンス: Link先を確認
Pinzhen Chen, Zhicheng Guo, Barry Haddow, Kenneth Heafield, (参考訳) 本稿では,言語理解能力と翻訳能力,および人間的な翻訳アプローチから着想を得て,大規模言語モデルに翻訳の自己修正を促すことを提案する。 興味深いことに、マルチターンクエリは出力の文字列ベースのメトリックスコアを減らすが、ニューラルネットワークメトリクスは同等か改善された品質を示している。 人間の評価は、品質を維持しながら、最初の翻訳や人間の参照よりも流線型と自然性が良いことを示している。 アブレーション研究は、精製をソースに固定することの重要性と、品質を考慮した適切なシード翻訳の重要性を浮き彫りにした。 また,評価における課題と,人間のパフォーマンスと翻訳との関係についても論じる。

We propose iteratively prompting a large language model to self-correct a translation, with inspiration from their strong language understanding and translation capability as well as a human-like translation approach. Interestingly, multi-turn querying reduces the output's string-based metric scores, but neural metrics suggest comparable or improved quality. Human evaluations indicate better fluency and naturalness compared to initial translations and even human references, all while maintaining quality. Ablation studies underscore the importance of anchoring the refinement to the source and a reasonable seed translation for quality considerations. We also discuss the challenges in evaluation and relation to human performance and translationese.
翻訳日:2024-05-03 22:39:45 公開日:2024-05-01
# 大規模言語モデルにおける透かしの信頼性について

On the Reliability of Watermarks for Large Language Models ( http://arxiv.org/abs/2306.04634v4 )

ライセンス: Link先を確認
John Kirchenbauer, Jonas Geiping, Yuxin Wen, Manli Shu, Khalid Saifullah, Kezhi Kong, Kasun Fernando, Aniruddha Saha, Micah Goldblum, Tom Goldstein, (参考訳) LLMが一般的になるにつれて、機械生成テキストはスパム、ソーシャルメディアボット、価値のないコンテンツでインターネットを溢れさせる可能性がある。 ウォーターマーキングは、LCM生成したテキストの検出と文書化を可能にすることで、そのような害を緩和するためのシンプルで効果的な戦略である。 しかし、重要な疑問が残る: 現実的な環境において、ウォーターマークはどの程度信頼できるのか? そこで、透かし付きテキストは、ユーザーの要求に合うように修正されるか、検出を避けるために完全に書き換えられる。 本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。 人や機械の言い回しをしても、透かしは検出可能である。 これらの攻撃は透かしの強さを薄めるが、パラフレーズは統計学的にn-gramまたは元のテキストのより長い断片をリークする可能性が高く、十分なトークンが観測されると高い信頼度が検出される。 例えば、強い人間の言い回しの後、平均で800個のトークンを観察した後、1e-5の偽陽性率を設定すると、透かしが検出できる。 我々はまた、大きな文書に埋め込まれた透かしの短いテキストに敏感な新しい検出方法についても検討し、透かしの頑健さを他の種類の検出器と比較する。

As LLMs become commonplace, machine-generated text has the potential to flood the internet with spam, social media bots, and valueless content. Watermarking is a simple and effective strategy for mitigating such harms by enabling the detection and documentation of LLM-generated text. Yet a crucial question remains: How reliable is watermarking in realistic settings in the wild? There, watermarked text may be modified to suit a user's needs, or entirely rewritten to avoid detection. We study the robustness of watermarked text after it is re-written by humans, paraphrased by a non-watermarked LLM, or mixed into a longer hand-written document. We find that watermarks remain detectable even after human and machine paraphrasing. While these attacks dilute the strength of the watermark, paraphrases are statistically likely to leak n-grams or even longer fragments of the original text, resulting in high-confidence detections when enough tokens are observed. For example, after strong human paraphrasing the watermark is detectable after observing 800 tokens on average, when setting a 1e-5 false positive rate. We also consider a range of new detection schemes that are sensitive to short spans of watermarked text embedded inside a large document, and we compare the robustness of watermarking to other kinds of detectors.
翻訳日:2024-05-03 22:39:45 公開日:2024-05-01
# ハイパーグラフ製品コードにおける部分的シンドローム測定

Partial Syndrome Measurement for Hypergraph Product Codes ( http://arxiv.org/abs/2306.17122v3 )

ライセンス: Link先を確認
Noah Berthusen, Daniel Gottesman, (参考訳) ハイパーグラフ製品コードは、一定のオーバーヘッドでフォールトトレラント量子計算を達成するための有望な方法である。 これらや他の定レートqLDPCコードを2Dに埋め込むには、かなりの数の非局所接続が必要であり、いくつかの量子コンピューティングアーキテクチャでは困難である。 本研究では,この非局所性を実現することを目的とした耐故障性手法を提案し,空間的に離れたキュービットに作用する発電機を非局所性よりも少ない頻度で測定する。 提案方式の簡易版の性能について検討し, 実測した発電機をランダムに選択した。 ハイパーグラフ製品コードと修正された小セットフリップ復号アルゴリズムに適用した場合、測定されるジェネレータの比率が十分に高い場合、しきい値が存在することが証明される。 また, 発生器の定数が一定でない場合でも, 論理誤差率が指数関数的に抑制されるという数値的証拠も見出した。

Hypergraph product codes are a promising avenue to achieving fault-tolerant quantum computation with constant overhead. When embedding these and other constant-rate qLDPC codes into 2D, a significant number of nonlocal connections are required, posing difficulties for some quantum computing architectures. In this work, we introduce a fault-tolerance scheme that aims to alleviate the effects of implementing this nonlocality by measuring generators acting on spatially distant qubits less frequently than those which do not. We investigate the performance of a simplified version of this scheme, where the measured generators are randomly selected. When applied to hypergraph product codes and a modified small-set-flip decoding algorithm, we prove that for a sufficiently high percentage of generators being measured, a threshold still exists. We also find numerical evidence that the logical error rate is exponentially suppressed even when a large constant fraction of generators are not measured.
翻訳日:2024-05-03 22:30:00 公開日:2024-05-01
# セキュリティ指向コード解析のための大規模言語モデル(ChatGPT, CodeBERT)の一事例

A Case Study of Large Language Models (ChatGPT and CodeBERT) for Security-Oriented Code Analysis ( http://arxiv.org/abs/2307.12488v4 )

ライセンス: Link先を確認
Zhilong Wang, Lan Zhang, Chen Cao, Nanqing Luo, Peng Liu, (参考訳) LLMはコードレビューや脆弱性分析などのコード解析タスクに使用することができる。 しかし、これらのLSMをコード解析に適用する強みと限界はいまだに不明である。 本稿では,セキュリティ指向プログラム分析におけるLLMの能力について,攻撃者やセキュリティアナリストの視点から検討する。 本稿では,ChatGPT と CodeBert の2つの代表的 LLM に着目し,その性能評価を行った。 本研究は,コードから高レベルのセマンティクスを学習する上でのLLMの効率を実証し,ChatGPTをセキュリティ指向のコンテキストにおける潜在的資産として位置づけた。 しかし、明確に定義された変数や関数名に大きく依存するなど、特定の制限を認識することが不可欠であり、匿名コードから学べない。 例えば、これらのLLMのパフォーマンスは、よく定義された変数と関数名に大きく依存しているため、匿名コードを学ぶことはできない。 このケーススタディで提起された懸念は、将来的には詳細な調査に値すると我々は信じている。

LLMs can be used on code analysis tasks like code review, vulnerabilities analysis and etc. However, the strengths and limitations of adopting these LLMs to the code analysis are still unclear. In this paper, we delve into LLMs' capabilities in security-oriented program analysis, considering perspectives from both attackers and security analysts. We focus on two representative LLMs, ChatGPT and CodeBert, and evaluate their performance in solving typical analytic tasks with varying levels of difficulty. Our study demonstrates the LLM's efficiency in learning high-level semantics from code, positioning ChatGPT as a potential asset in security-oriented contexts. However, it is essential to acknowledge certain limitations, such as the heavy reliance on well-defined variable and function names, making them unable to learn from anonymized code. For example, the performance of these LLMs heavily relies on the well-defined variable and function names, therefore, will not be able to learn anonymized code. We believe that the concerns raised in this case study deserve in-depth investigation in the future.
翻訳日:2024-05-03 22:30:00 公開日:2024-05-01
# スムーズな活性化を伴う2層ニューラルネットワークのメモリ容量

Memory capacity of two layer neural networks with smooth activations ( http://arxiv.org/abs/2308.02001v3 )

ライセンス: Link先を確認
Liam Madden, Christos Thrampoulidis, (参考訳) 2層ニューラルネットワークのメモリ容量を$m$の隠れニューロンと入力次元$d$(例えば、$md+2m$トータルトレーニング可能なパラメータ)で決定することは、ネットワークが記憶できる一般的なデータの最大サイズを指す、基本的な機械学習問題である。 ある点において実解析的であり、そこで多項式に制限されたとき、十分高い次数を持つような活性化に対して、我々は、$\lfloor md/2\rfloor$の低い境界と、約2$の係数までの最適性を確立する。 Sigmoids、Heaviside、rerectified linear unit (ReLU) など、すべての実用的な活性化は、ある点で実解析的である。 さらに次数条件は軽度であり、例えば、活性化が$x^k$であれば$\binom{k+d-1}{d-1}\ge n$である。 アナログ以前の結果はHeavisideとReLUのアクティベーションに限られていました。 一般活性化を解析するために、ネットワークのヤコビアンの正確な一般ランクを導出する。 我々の分析は、アダマール級数に関する古典的線型代数的事実を拡張している。 全体として、我々のアプローチは、メモリ容量に関する以前の研究と異なり、より深いモデルや他のアーキテクチャへの拡張を約束しています。

Determining the memory capacity of two layer neural networks with $m$ hidden neurons and input dimension $d$ (i.e., $md+2m$ total trainable parameters), which refers to the largest size of general data the network can memorize, is a fundamental machine learning question. For activations that are real analytic at a point and, if restricting to a polynomial there, have sufficiently high degree, we establish a lower bound of $\lfloor md/2\rfloor$ and optimality up to a factor of approximately $2$. All practical activations, such as sigmoids, Heaviside, and the rectified linear unit (ReLU), are real analytic at a point. Furthermore, the degree condition is mild, requiring, for example, that $\binom{k+d-1}{d-1}\ge n$ if the activation is $x^k$. Analogous prior results were limited to Heaviside and ReLU activations -- our result covers almost everything else. In order to analyze general activations, we derive the precise generic rank of the network's Jacobian, which can be written in terms of Hadamard powers and the Khatri-Rao product. Our analysis extends classical linear algebraic facts about the rank of Hadamard powers. Overall, our approach differs from prior works on memory capacity and holds promise for extending to deeper models and other architectures.
翻訳日:2024-05-03 22:30:00 公開日:2024-05-01
# Fin-Fact:マルチモーダルファイナンシャル・ファクトチェックと説明生成のためのベンチマークデータセット

Fin-Fact: A Benchmark Dataset for Multimodal Financial Fact Checking and Explanation Generation ( http://arxiv.org/abs/2309.08793v2 )

ライセンス: Link先を確認
Aman Rangapur, Haoran Wang, Ling Jian, Kai Shu, (参考訳) 金融分野のファクトチェックは検討中であり、この領域には品質データセットが不足している。 本稿では,金融分野におけるマルチモーダルなファクトチェックのためのベンチマークデータセットであるFin-Factを提案する。 特に、プロのファクトチェッカーアノテーションと正当化が含まれ、専門知識と信頼性を提供する。 テキストコンテンツと視覚コンテンツの両方を含むマルチモーダルな性質により、Fin-Factは事実分析を強化するために補完的な情報ソースを提供する。 その主な目的は、財務における誤った情報との戦い、透明性の育成、財務報告とニュース拡散に対する信頼の構築である。 洞察に富んだ説明を提供することで、Fin-Factは、ドメインの専門家やエンドユーザを含むユーザに対して、事実確認決定の背後にある理由の理解、クレームの信頼性の検証、事実確認プロセスにおける信頼の促進を可能にします。 Fin-Factデータセットは、実験コードとともにhttps://github.com/IIT-DM/Fin-Fact/.comで利用可能です。

Fact-checking in financial domain is under explored, and there is a shortage of quality dataset in this domain. In this paper, we propose Fin-Fact, a benchmark dataset for multimodal fact-checking within the financial domain. Notably, it includes professional fact-checker annotations and justifications, providing expertise and credibility. With its multimodal nature encompassing both textual and visual content, Fin-Fact provides complementary information sources to enhance factuality analysis. Its primary objective is combating misinformation in finance, fostering transparency, and building trust in financial reporting and news dissemination. By offering insightful explanations, Fin-Fact empowers users, including domain experts and end-users, to understand the reasoning behind fact-checking decisions, validating claim credibility, and fostering trust in the fact-checking process. The Fin-Fact dataset, along with our experimental codes is available at https://github.com/IIT-DM/Fin-Fact/.
翻訳日:2024-05-03 22:20:15 公開日:2024-05-01
# チャネルの整合性を考慮した動的写像のCPディバイザビリティの関連

Relating CP divisibility of dynamical maps with compatibility of channels ( http://arxiv.org/abs/2309.10806v3 )

ライセンス: Link先を確認
Arindam Mitra, Debashis Saha, Samyadeb Bhattacharya, A. S. Majumdar, (参考訳) 情報理論の課題に有用な資源として,CP-indivisibilityと非互換性が果たす役割は広く認識されている。 本研究は,CP-divisibility とチャネル互換性の複雑な関係について考察する。 本研究は,一対の一般力学写像に対する量子チャネルの不整合性ロバスト性の挙動に着目した。 本研究では,一対の一般CP分割動的写像に対して,チャネルの不整合性は単調に増加しないことを示す。 さらに,いくつかの動的マップの時間に伴う不整合性頑健性の挙動を明示的に研究した結果,CP非可分状態における非単調な挙動が明らかとなった。 さらに,量子チャネルの不整合性に基づくCP-indivisibilityの尺度を提案する。 本研究は、量子力学マップの性質と情報理論応用におけるそれらの関連性に関する貴重な知見を提供する。

The role of CP-indivisibility and incompatibility as valuable resources for various information-theoretic tasks is widely acknowledged. This study delves into the intricate relationship between CP-divisibility and channel compatibility. Our investigation focuses on the behaviour of incompatibility robustness of quantum channels for a pair of generic dynamical maps. We show that the incompatibility robustness of channels is monotonically non-increasing for a pair of generic CP-divisible dynamical maps. Further, our explicit study of the behaviour of incompatibility robustness with time for some specific dynamical maps reveals non-monotonic behaviour in the CP-indivisible regime. Additionally, we propose a measure of CP-indivisibility based on the incompatibility robustness of quantum channels. Our investigation provides valuable insights into the nature of quantum dynamical maps and their relevance in information-theoretic applications.
翻訳日:2024-05-03 22:20:15 公開日:2024-05-01
# 2-Cats:2次元コプラ近似変換

2-Cats: 2D Copula Approximating Transforms ( http://arxiv.org/abs/2309.16391v3 )

ライセンス: Link先を確認
Flavio Figueiredo, José Geraldo Fernandes, Jackson Silva, Renato M. Assunção, (参考訳) Copulaは、複数のデータ次元にわたる依存関係をキャプチャするための強力な統計ツールである。 Copulasを適用するには、単純なタスクである独立した辺縁関係を推定し、それに続いて、これらの辺縁関係をリンクする単一の対応関数である$C$を決定するという、はるかに難しいタスクが続く。 二変数データに対して、コプラは 2 つの増分関数 $C: (u,v)\in \mathbb{I}^2 \rightarrow \mathbb{I}$, ここで $\mathbb{I} = [0, 1]$ となる。 本稿では,ニューラルネットワークモデルである2-Catsを提案する。2-Catsは2次元コピュラを学習し,その鍵となる特性を保ちながら,特定のコピュラ族(例えばアルキメデス)に依存しない。 さらに,物理インフォームドニューラルネットワークとソボレフトレーニングに関する文献から着想を得たトレーニング戦略を導入する。 提案手法は,コピュラの基本的な数学的特性を維持しつつ,様々なデータセットにおける最先端技術よりも優れた性能を示す。 注: 読者のみなさん、レビュアーは、私たちのP2の証明で間違いを正しく捉えました。 arXivが削除を許可していないことを考慮すれば、この問題を修正しながら、このバージョンをArxivのこのメモで保持しています。

Copulas are powerful statistical tools for capturing dependencies across multiple data dimensions. Applying Copulas involves estimating independent marginals, a straightforward task, followed by the much more challenging task of determining a single copulating function, $C$, that links these marginals. For bivariate data, a copula takes the form of a two-increasing function $C: (u,v)\in \mathbb{I}^2 \rightarrow \mathbb{I}$, where $\mathbb{I} = [0, 1]$. In this paper, we propose 2-Cats, a Neural Network (NN) model that learns two-dimensional Copulas while preserving their key properties, without relying on specific Copula families (e.g., Archimedean). Furthermore, we introduce a training strategy inspired by the literature on Physics-Informed Neural Networks and Sobolev Training. Our proposed method exhibits superior performance compared to the state-of-the-art across various datasets while maintaining the fundamental mathematical properties of a Copula. note: Dear readers, a reviewer correctly captured a mistake in our proof of P2. Given that arXiv does not allow removals, we are keeping this version with this note on Arxiv with this note while we correct this issue.
翻訳日:2024-05-03 22:20:15 公開日:2024-05-01
# 機械学習による中性原子量測定の高度化

Enhanced Measurement of Neutral Atom Qubits with Machine Learning ( http://arxiv.org/abs/2311.12217v2 )

ライセンス: Link先を確認
L. Phuttitarn, B. M. Becker, R. Chinnarasu, T. M. Graham, M. Saffman, (参考訳) 我々は、中性原子量子プロセッサにおいて、教師付き畳み込みニューラルネットワーク(CNN)によって補助される量子ビット状態の測定を実証する。 我々は中性原子量子ビットの読み出しデータを解析するための2つのCNNアーキテクチャ:コンパクトな5層シングルキュービットCNNアーキテクチャと6層マルチキュービットCNNアーキテクチャを提案する。 両アーキテクチャを従来のガウスしきい値解析法と比較した。 無視可能なクロストークを経験するスパースアレイ (9 {\mu}m 原子分離) では, ベンチマークと比較すると, マルチキュービットアーキテクチャとシングルキュービットアーキテクチャの誤差を最大32%, 56%低減した。 読み出しクロストークに苦しむ密閉配列 (5 {\mu}m 原子分離) において, マルチキュービットCNNアーキテクチャとシングルキュービットCNNアーキテクチャでは, それぞれ43%, 32%の誤差低減が確認された。 隣接量子ビットの予測状態間の相関を調べた結果,マルチキュービットCNNアーキテクチャはクロストーク相関を78.5%まで低減することがわかった。 この研究は、中性原子量子コンピュータ上でリアルタイムの読み出し処理として実装されるCNNネットワークの概念実証を行い、より高速な読み出し時間と忠実さの向上を可能にした。

We demonstrate qubit state measurements assisted by a supervised convolutional neural network (CNN) in a neutral atom quantum processor. We present two CNN architectures for analyzing neutral atom qubit readout data: a compact 5-layer single-qubit CNN architecture and a 6-layer multi-qubit CNN architecture. We benchmark both architectures against a conventional Gaussian threshold analysis method. In a sparse array (9 {\mu}m atom separation) which experiences negligible crosstalk, we observed up to 32% and 56% error reduction for the multi-qubit and single-qubit architectures respectively, as compared to the benchmark. In a tightly spaced array (5 {\mu}m atom separation), which suffers from readout crosstalk, we observed up to 43% and 32% error reduction in the multi-qubit and single-qubit CNN architectures respectively, as compared to the benchmark. By examining the correlation between the predicted states of neighboring qubits, we found that the multi-qubit CNN architecture reduces the crosstalk correlation up to 78.5%. This work demonstrates a proof of concept for a CNN network to be implemented as a real-time readout processing method on a neutral atom quantum computer, enabling faster readout time and improved fidelity.
翻訳日:2024-05-03 22:10:30 公開日:2024-05-01
# 長期連続予測のためのMixture-of-Linear-Experts

Mixture-of-Linear-Experts for Long-term Time Series Forecasting ( http://arxiv.org/abs/2312.06786v3 )

ライセンス: Link先を確認
Ronghao Ni, Zinan Lin, Shuaiqi Wang, Giulia Fanti, (参考訳) 長期時系列予測(LTSF)は、過去の値から時系列の将来値を予測することを目的としている。 この問題に対する現在の最先端(SOTA)は、主に線形写像層を特徴とする線形中心モデルによって達成されている。 しかし、本質的に単純であるため、時系列パターンの周期的変化に予測規則を適用することはできない。 この課題に対処するために、線形中心モデルに対するMixture-of-Expertsスタイルの拡張を提案し、Mixture-of-Linear-Experts (MoLE)を提案する。 単一のモデルをトレーニングする代わりに、MoLEは複数の線形中心モデル(専門家など)とルータモデルを訓練し、出力を重み付け、混合する。 フレームワーク全体がエンドツーエンドでトレーニングされている間、各専門家は特定の時間パターンを専門化することを学び、ルータモデルは専門家を適応的に構成することを学ぶ。 実験の結果, DLinear, RLinear, RMLPを含む線形中心モデルの予測誤差を, 評価したデータセットと設定の78%以上で低減することがわかった。 既存の線形中心モデルを用いることで、PatchTSTが報告した実験の68%でSOTA LTSFを達成でき、一方、既存の単頭線形中心モデルではわずか25%のケースでSOTAを達成できる。

Long-term time series forecasting (LTSF) aims to predict future values of a time series given the past values. The current state-of-the-art (SOTA) on this problem is attained in some cases by linear-centric models, which primarily feature a linear mapping layer. However, due to their inherent simplicity, they are not able to adapt their prediction rules to periodic changes in time series patterns. To address this challenge, we propose a Mixture-of-Experts-style augmentation for linear-centric models and propose Mixture-of-Linear-Experts (MoLE). Instead of training a single model, MoLE trains multiple linear-centric models (i.e., experts) and a router model that weighs and mixes their outputs. While the entire framework is trained end-to-end, each expert learns to specialize in a specific temporal pattern, and the router model learns to compose the experts adaptively. Experiments show that MoLE reduces forecasting error of linear-centric models, including DLinear, RLinear, and RMLP, in over 78% of the datasets and settings we evaluated. By using MoLE existing linear-centric models can achieve SOTA LTSF results in 68% of the experiments that PatchTST reports and we compare to, whereas existing single-head linear-centric models achieve SOTA results in only 25% of cases.
翻訳日:2024-05-03 22:00:43 公開日:2024-05-01
# 全てを規定する1つのモデル:テキストプロンプトを用いた医用画像のユニバーサルセグメンテーションを目指して

One Model to Rule them All: Towards Universal Segmentation for Medical Images with Text Prompts ( http://arxiv.org/abs/2312.17183v2 )

ライセンス: Link先を確認
Ziheng Zhao, Yao Zhang, Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie, (参考訳) 本研究では,SATと呼ばれるテキストプロンプトを駆使した医療シナリオにおけるセグメンテーションを目標とするモデルの構築に焦点をあてる。 主なコントリビューションは3つあります。 i) データセット構築には,人体解剖学上の最初のマルチモーダル知識ツリーを構築するために,複数の知識ソースを組み合わせて,72のセグメンテーションデータセットから22K以上の医用画像スキャンを収集し,画像スキャンとラベル空間の両方を慎重に標準化することにより,最大かつ最も包括的なセグメンテーションデータセットを構築した。 (II) 建築設計において, 医療用語をテキスト形式で入力することにより, 普遍的なセグメンテーションモデルを定式化する。 多数のデータセットの組み合わせによる知識強化表現学習を提案する。 3) モデル評価では,447MパラメータのみのSAT-Proをトレーニングし,72種類のセグメンテーションデータセットをテキストプロンプトで分割し,結果として497のクラスを生成する。 各データセット/サブセットに nnU-Net モデルをトレーニングし,72 nnU-Net と約 2.2B のパラメータを持つ結果となった。 この作業では、すべてのコードとモデルをリリースします。

In this study, we focus on building up a model that aims to Segment Anything in medical scenarios, driven by Text prompts, termed as SAT. Our main contributions are three folds: (i) for dataset construction, we combine multiple knowledge sources to construct the first multi-modal knowledge tree on human anatomy, including 6502 anatomical terminologies; Then we build up the largest and most comprehensive segmentation dataset for training, by collecting over 22K 3D medical image scans from 72 segmentation datasets with careful standardization on both image scans and label space; (ii) for architecture design, we formulate a universal segmentation model, that can be prompted by inputting medical terminologies in text form. We present knowledge-enhanced representation learning on the combination of a large number of datasets; (iii) for model evaluation, we train a SAT-Pro with only 447M parameters, to segment 72 different segmentation datasets with text prompt, resulting in 497 classes. We have thoroughly evaluated the model from three aspects: averaged by body regions, averaged by classes, and average by datasets, demonstrating comparable performance to 72 specialist nnU-Nets, i.e., we train nnU-Net models on each dataset/subset, resulting in 72 nnU-Nets with around 2.2B parameters for the 72 datasets. We will release all the codes, and models in this work.
翻訳日:2024-05-03 21:50:58 公開日:2024-05-01
# Fermi-Hubbardモデルに対する量子ハミルトニアン学習

Quantum Hamiltonian Learning for the Fermi-Hubbard Model ( http://arxiv.org/abs/2312.17390v2 )

ライセンス: Link先を確認
Hongkang Ni, Haoya Li, Lexing Ying, (参考訳) 本研究はフェルミオンハミルトン学習のためのプロトコルを提案する。 有界グラフ上で定義されたハバードモデルに対して、ハイゼンベルク制限スケーリングは状態準備と測定誤差を許容しながら達成される。 すべてのパラメータに対して$\epsilon$-accurate推定を達成するには、$\tilde{\mathcal{O}}(\epsilon^{-1})$ total evolution time が必要である。 さらに,本手法は,実験実装に好適な単純な1箇所または2箇所のフェルミオン操作のみを含む。

This work proposes a protocol for Fermionic Hamiltonian learning. For the Hubbard model defined on a bounded-degree graph, the Heisenberg-limited scaling is achieved while allowing for state preparation and measurement errors. To achieve $\epsilon$-accurate estimation for all parameters, only $\tilde{\mathcal{O}}(\epsilon^{-1})$ total evolution time is needed, and the constant factor is independent of the system size. Moreover, our method only involves simple one or two-site Fermionic manipulations, which is desirable for experiment implementation.
翻訳日:2024-05-03 21:50:58 公開日:2024-05-01
# 最適化とは何か? 深層学習に基づく映画レコメンダの人間中心評価

What Are We Optimizing For? A Human-centric Evaluation of Deep Learning-based Movie Recommenders ( http://arxiv.org/abs/2401.11632v2 )

ライセンス: Link先を確認
Ruixuan Sun, Xinyi Wu, Avinash Akella, Ruoyan Kong, Bart Knijnenburg, Joseph A. Konstan, (参考訳) 過去10年間で、ディープラーニング(DL)モデルは、レコメンデータシステム(RecSys)のベンチマークデータセットにおいて、例外的な精度で有名になった。 しかし、彼らの評価は主にオフラインのメトリクスに依存しており、直接ユーザーの認識と経験を見落としている。 このギャップに対処するために、映画領域における4つの主要なDL-RecSysモデルの人間中心評価ケーススタディを行う。 DL-RecSysモデルがパーソナライズされたレコメンデーション生成において,445人の実アクティブユーザを対象に調査を行った。 いくつかのDL-RecSysモデルは、従来のコラボレーティブフィルタリング(CF)手法と比較して、新規で予期せぬ項目を推奨し、多様性、信頼性、透明性、正確性、全体的なユーザ満足度が低下している。 アンダーパフォーマンスの背景にある理由をさらに説明するために,包括的パス解析を適用した。 多様性の欠如とDLモデルからの過度なセレンディピティーが、結果として知覚される透明性とレコメンデーションのパーソナライズに悪影響を及ぼすことが判明した。 このようなパスは、究極的にはユーザー満足度を低下させる。 質的に言えば、私たちは、透明性と信頼の要求は無視できないが、優れたユーザエクスペリエンスを保証するためには、正確さと少なくとも1つの他の属性が不可欠である、と、実際のユーザからの引用で確認します。 そこで本研究では,人間中心型DL-RecSysの設計と最適化戦略について論じる。

In the past decade, deep learning (DL) models have gained prominence for their exceptional accuracy on benchmark datasets in recommender systems (RecSys). However, their evaluation has primarily relied on offline metrics, overlooking direct user perception and experience. To address this gap, we conduct a human-centric evaluation case study of four leading DL-RecSys models in the movie domain. We test how different DL-RecSys models perform in personalized recommendation generation by conducting survey study with 445 real active users. We find some DL-RecSys models to be superior in recommending novel and unexpected items and weaker in diversity, trustworthiness, transparency, accuracy, and overall user satisfaction compared to classic collaborative filtering (CF) methods. To further explain the reasons behind the underperformance, we apply a comprehensive path analysis. We discover that the lack of diversity and too much serendipity from DL models can negatively impact the consequent perceived transparency and personalization of recommendations. Such a path ultimately leads to lower summative user satisfaction. Qualitatively, we confirm with real user quotes that accuracy plus at least one other attribute is necessary to ensure a good user experience, while their demands for transparency and trust can not be neglected. Based on our findings, we discuss future human-centric DL-RecSys design and optimization strategies.
翻訳日:2024-05-03 21:50:58 公開日:2024-05-01
# 一般マルコフゲームにおける相関平衡の準最適最適化

Near-Optimal Policy Optimization for Correlated Equilibrium in General-Sum Markov Games ( http://arxiv.org/abs/2401.15240v2 )

ライセンス: Link先を確認
Yang Cai, Haipeng Luo, Chen-Yu Wei, Weiqiang Zheng, (参考訳) マルチプレイヤー汎用マルコフゲームにおける平衡計算のためのポリシー最適化アルゴリズムについて検討する。 以前の結果は、相関平衡への$O(T^{-1/2})$収束率と、より弱い相関平衡の概念への加速$O(T^{-3/4})$収束率を得る。 本稿では、相関平衡を計算するために、ほぼ最適の$\tilde{O}(T^{-1})$収束率を得る未結合のポリシー最適化アルゴリズムを提供することにより、両結果を著しく改善する。 我々のアルゴリズムは2つの主要素を組み合わせることで構成される (i)スムーズな値更新と (II)ログバリア正規化器を用いた楽観的フォロー・ザ・レギュラー化リーダアルゴリズム。

We study policy optimization algorithms for computing correlated equilibria in multi-player general-sum Markov Games. Previous results achieve $O(T^{-1/2})$ convergence rate to a correlated equilibrium and an accelerated $O(T^{-3/4})$ convergence rate to the weaker notion of coarse correlated equilibrium. In this paper, we improve both results significantly by providing an uncoupled policy optimization algorithm that attains a near-optimal $\tilde{O}(T^{-1})$ convergence rate for computing a correlated equilibrium. Our algorithm is constructed by combining two main elements (i) smooth value updates and (ii) the optimistic-follow-the-regularized-leader algorithm with the log barrier regularizer.
翻訳日:2024-05-03 21:50:58 公開日:2024-05-01
# 微分プライベートベイズ試験

Differentially private Bayesian tests ( http://arxiv.org/abs/2401.15502v2 )

ライセンス: Link先を確認
Abhisek Chakraborty, Saptati Datta, (参考訳) 識別プライバシーは、機密データを利用した科学的仮説テストの領域において重要な基盤として浮上している。 科学的発見の報告において、ベイズテストは、P値の重要な批判、すなわち、解釈可能性の欠如と、競合する仮説を支持する証拠を定量化できないことを効果的に回避するため、広く採用されている。 本稿では,原理的データ生成機構の下で自然に発生し,結果として生じる推論の解釈可能性を本質的に維持する,微分プライベートなベイズ仮説テストフレームワークを提案する。 さらに、広く使われているテスト統計に基づいて、微分プライベートなベイズ因子に焦点を当てることで、完全なデータ生成機構をモデル化し、実質的な計算上の利点を確保する必要性を回避できる。 また,提案フレームワークの下でベイズ係数の整合性を示すための十分な条件のセットも提供する。 考案された技術の実用性は、いくつかの数値実験を通して示される。

Differential privacy has emerged as an significant cornerstone in the realm of scientific hypothesis testing utilizing confidential data. In reporting scientific discoveries, Bayesian tests are widely adopted since they effectively circumnavigate the key criticisms of P-values, namely, lack of interpretability and inability to quantify evidence in support of the competing hypotheses. We present a novel differentially private Bayesian hypotheses testing framework that arise naturally under a principled data generative mechanism, inherently maintaining the interpretability of the resulting inferences. Furthermore, by focusing on differentially private Bayes factors based on widely used test statistics, we circumvent the need to model the complete data generative mechanism and ensure substantial computational benefits. We also provide a set of sufficient conditions to establish results on Bayes factor consistency under the proposed framework. The utility of the devised technology is showcased via several numerical experiments.
翻訳日:2024-05-03 21:50:58 公開日:2024-05-01
# 表現の事実を自然言語に変換する

Converting Representational Counterfactuals to Natural Language ( http://arxiv.org/abs/2402.11355v2 )

ライセンス: Link先を確認
Matan Avitan, Ryan Cotterell, Yoav Goldberg, Shauli Ravfogel, (参考訳) 言語モデル(LM)の表現空間をターゲットとした介入は、モデル行動に影響を与える効果的な手段として現れてきた。 このような手法は、例えば、モデルの表現内で性別などの人口統計情報のエンコーディングを排除または変更するために使われ、その結果、反事実表現を作成する。 しかしながら、介入は表現空間内で動作するため、それが修正するテキストのどの側面が課題となるのかを正確に理解することは困難である。 本稿では,表現反事実を文字列反事実に変換する方法を提案する。 提案手法は,与えられた表現空間の介入に対応する言語変化を解析し,特定の概念を符号化するために使用する特徴を解釈することを可能にする。 さらに、結果のカウンターファクトは、データ拡張による分類のバイアスを軽減するために使用することができる。

Interventions targeting the representation space of language models (LMs) have emerged as an effective means to influence model behavior. Such methods are employed, for example, to eliminate or alter the encoding of demographic information such as gender within the model's representations and, in so doing, create a counterfactual representation. However, because the intervention operates within the representation space, understanding precisely what aspects of the text it modifies poses a challenge. In this paper, we give a method to convert representation counterfactuals into string counterfactuals. We demonstrate that this approach enables us to analyze the linguistic alterations corresponding to a given representation space intervention and to interpret the features utilized to encode a specific concept. Moreover, the resulting counterfactuals can be used to mitigate bias in classification through data augmentation.
翻訳日:2024-05-03 21:41:12 公開日:2024-05-01
# 視覚分類のためのアーキテクチャ間のゼロショット一般化

Zero-shot generalization across architectures for visual classification ( http://arxiv.org/abs/2402.14095v3 )

ライセンス: Link先を確認
Evan Gerritz, Luciano Dyballa, Steven W. Zucker, (参考訳) 未確認データへの一般化はディープネットワークにとって重要なデシダータムであるが、その分類精度との関係は不明確である。 最小限のビジョンデータセットと一般化可能性の尺度を用いて、ディープ畳み込みネットワーク(CNN)からトランスフォーマー(transformer)までの人気ネットワークが、層とアーキテクチャの両方にわたって、見当たらないクラスに外挿する能力に変化することを示した。 精度は一般化可能性の予測には適さないし、一般化は層深度とともに単調に変化する。

Generalization to unseen data is a key desideratum for deep networks, but its relation to classification accuracy is unclear. Using a minimalist vision dataset and a measure of generalizability, we show that popular networks, from deep convolutional networks (CNNs) to transformers, vary in their power to extrapolate to unseen classes both across layers and across architectures. Accuracy is not a good predictor of generalizability, and generalization varies non-monotonically with layer depth.
翻訳日:2024-05-03 21:41:12 公開日:2024-05-01
# LLM推論が明らかに:サーベイとルーフラインモデル

LLM Inference Unveiled: Survey and Roofline Model Insights ( http://arxiv.org/abs/2402.16363v6 )

ライセンス: Link先を確認
Zhihang Yuan, Yuzhang Shang, Yang Zhou, Zhen Dong, Zhe Zhou, Chenhao Xue, Bingzhe Wu, Zhikai Li, Qingyi Gu, Yong Jae Lee, Yan Yan, Beidi Chen, Guangyu Sun, Kurt Keutzer, (参考訳) 効率的なLarge Language Model(LLM)推論の分野は急速に発展しており、機会と課題のユニークなブレンドが提示されている。 フィールドは拡張され、活気があるが、このドメインを明確に理解するために、LLM推論の様々なメソッドを分析する簡潔なフレームワークは存在していない。 本調査は,研究の現状を要約するだけでなく,LLM推論手法の体系的解析のための屋上モデルに基づく枠組みを導入することで,従来の文献レビューから際立っている。 このフレームワークは、LLMをハードウェアデバイスにデプロイする際のボトルネックを特定し、LCMがメモリバウンドである理由、必要なメモリと計算量、適切なハードウェアを選択する方法など、実用的な問題を明確に理解する。 モデル圧縮(例えば、知識蒸留と量子化)、アルゴリズムの改良(例えば、早期排他と混合実験)、ハードウェアとシステムレベルの拡張といった重要な領域を網羅し、効率的なLLM推論の最新の進歩を体系的に解析する。 本調査は,これらの手法を屋上モデルで解析し,メモリアクセスと計算への影響を理解する上で有効である。 この独特なアプローチは、現在の研究状況を示すだけでなく、我々の研究をこの分野に新たに参入した研究者や、効率的なLLMデプロイメントの理解を深めようとする研究者にとって欠かせない資源として位置づける、実践的な実践のための貴重な洞察を提供する。 アナリティクスツールのLLM-Viewerがオープンソース化された。

The field of efficient Large Language Model (LLM) inference is rapidly evolving, presenting a unique blend of opportunities and challenges. Although the field has expanded and is vibrant, there hasn't been a concise framework that analyzes the various methods of LLM Inference to provide a clear understanding of this domain. Our survey stands out from traditional literature reviews by not only summarizing the current state of research but also by introducing a framework based on roofline model for systematic analysis of LLM inference techniques. This framework identifies the bottlenecks when deploying LLMs on hardware devices and provides a clear understanding of practical problems, such as why LLMs are memory-bound, how much memory and computation they need, and how to choose the right hardware. We systematically collate the latest advancements in efficient LLM inference, covering crucial areas such as model compression (e.g., Knowledge Distillation and Quantization), algorithm improvements (e.g., Early Exit and Mixture-of-Expert), and both hardware and system-level enhancements. Our survey stands out by analyzing these methods with roofline model, helping us understand their impact on memory access and computation. This distinctive approach not only showcases the current research landscape but also delivers valuable insights for practical implementation, positioning our work as an indispensable resource for researchers new to the field as well as for those seeking to deepen their understanding of efficient LLM deployment. The analyze tool, LLM-Viewer, is open-sourced.
翻訳日:2024-05-03 21:41:12 公開日:2024-05-01
# 難解なLIPSシンク船:言語インフォームドプログラムサンプリングによる戦艦の質問

Loose LIPS Sink Ships: Asking Questions in Battleship with Language-Informed Program Sampling ( http://arxiv.org/abs/2402.19471v2 )

ライセンス: Link先を確認
Gabriel Grand, Valerio Pepe, Jacob Andreas, Joshua B. Tenenbaum, (参考訳) 質問は、我々の言語習得と、不確実性について推論するための際立った施設を組み合わせる。 認知資源に制限のある情報的疑問を提起するために、人々はどのように巨大な仮説空間をナビゲートするか? 本研究では,これらのトレードオフを,ボードゲーム「バトルシップ」に基づく古典的根拠付き質問応答タスクで研究する。 言語インフォームド・プログラム・サンプリング (LIPS) モデルでは,大きな言語モデル (LLM) を用いて自然言語の質問を生成し,それらをシンボリック・プログラムに変換する。 この単純なモンテカルロ最適化戦略は、驚くほど控えめなリソース予算で、バトルシップボードの様々なシナリオで人間のパフォーマンスを反映する情報的疑問をもたらす。 対照的に、LCMのみのベースラインは、ボード状態の疑問を解き明かすのに苦労しており、特にGPT-4Vは、非視覚ベースラインよりも改善しない。 以上の結果から,ベイジアンモデルが言語統計を活用すれば,人間の先行を捉えることができることを示すとともに,純粋LLMの欠点を根拠とした推論手法として強調する。

Questions combine our mastery of language with our remarkable facility for reasoning about uncertainty. How do people navigate vast hypothesis spaces to pose informative questions given limited cognitive resources? We study these tradeoffs in a classic grounded question-asking task based on the board game Battleship. Our language-informed program sampling (LIPS) model uses large language models (LLMs) to generate natural language questions, translate them into symbolic programs, and evaluate their expected information gain. We find that with a surprisingly modest resource budget, this simple Monte Carlo optimization strategy yields informative questions that mirror human performance across varied Battleship board scenarios. In contrast, LLM-only baselines struggle to ground questions in the board state; notably, GPT-4V provides no improvement over non-visual baselines. Our results illustrate how Bayesian models of question-asking can leverage the statistics of language to capture human priors, while highlighting some shortcomings of pure LLMs as grounded reasoners.
翻訳日:2024-05-03 21:41:12 公開日:2024-05-01
# 資源制約型IoT環境における効率的なトランスフォーマーベースハイパーパラメータ最適化

Efficient Transformer-based Hyper-parameter Optimization for Resource-constrained IoT Environments ( http://arxiv.org/abs/2403.12237v2 )

ライセンス: Link先を確認
Ibrahim Shaer, Soodeh Nikan, Abdallah Shami, (参考訳) ハイパーパラメータ最適化(HPO)プロセスは、最も優れた畳み込みニューラルネットワーク(CNN)を見つけるために必須である。 HPOの自動化プロセスは、その巨大な計算フットプリントと透明性の欠如を特徴としている。 本稿では,トランスフォーマアーキテクチャとアクタ・クリティック・強化学習(RL)モデルを組み合わせた新しい手法であるTRL-HPOを提案する。 これらの仮定は、MNISTデータセット上でTRL-HPOを評価し、CNNモデルをスクラッチから構築する最先端のアプローチと比較することによって、実証的に構築される。 TRL-HPOは,HPOプロセスにおけるTRL-HPOの効率を実証し,これらの手法の分類結果を同時に6.8%向上させることを示した。 この結果から, 完全に連結した層を積み重ねることによる性能劣化の主要因を同定した。 本稿では,資源制約環境下でのRLベースのHPOプロセスを改善するための新しい方法について述べる。

The hyper-parameter optimization (HPO) process is imperative for finding the best-performing Convolutional Neural Networks (CNNs). The automation process of HPO is characterized by its sizable computational footprint and its lack of transparency; both important factors in a resource-constrained Internet of Things (IoT) environment. In this paper, we address these problems by proposing a novel approach that combines transformer architecture and actor-critic Reinforcement Learning (RL) model, TRL-HPO, equipped with multi-headed attention that enables parallelization and progressive generation of layers. These assumptions are founded empirically by evaluating TRL-HPO on the MNIST dataset and comparing it with state-of-the-art approaches that build CNN models from scratch. The results show that TRL-HPO outperforms the classification results of these approaches by 6.8% within the same time frame, demonstrating the efficiency of TRL-HPO for the HPO process. The analysis of the results identifies the main culprit for performance degradation attributed to stacking fully connected layers. This paper identifies new avenues for improving RL-based HPO processes in resource-constrained environments.
翻訳日:2024-05-03 21:31:27 公開日:2024-05-01
# 知識誘導型機械学習の現状と将来展望

Knowledge-guided Machine Learning: Current Trends and Future Prospects ( http://arxiv.org/abs/2403.15989v2 )

ライセンス: Link先を確認
Anuj Karpatne, Xiaowei Jia, Vipin Kumar, (参考訳) 本稿では,プロセスベースモデルと比較して,科学モデリングにおけるML手法の相補的長所と短所について概説する。 また、科学知識誘導機械学習(KGML)の新興分野における現在の研究状況についても紹介し、MLフレームワークにおける科学知識とデータの両方を使用して、より良い一般化可能性、科学的一貫性、結果の説明可能性を達成することを目標としている。 我々は、KGML研究のさまざまな側面について、使用する科学知識の種類、知識-機械学習統合の形式、そして、科学知識をMLに組み込む方法について論じる。 また,KGML手法が開発されている環境科学におけるユースケースの一般的なカテゴリについても,各カテゴリの例を用いて論じる。

This paper presents an overview of scientific modeling and discusses the complementary strengths and weaknesses of ML methods for scientific modeling in comparison to process-based models. It also provides an introduction to the current state of research in the emerging field of scientific knowledge-guided machine learning (KGML) that aims to use both scientific knowledge and data in ML frameworks to achieve better generalizability, scientific consistency, and explainability of results. We discuss different facets of KGML research in terms of the type of scientific knowledge used, the form of knowledge-ML integration explored, and the method for incorporating scientific knowledge in ML. We also discuss some of the common categories of use cases in environmental sciences where KGML methods are being developed, using illustrative examples in each category.
翻訳日:2024-05-03 21:31:27 公開日:2024-05-01
# テキスト・画像生成におけるバイアスの実態調査:定義・評価・軽減

Survey of Bias In Text-to-Image Generation: Definition, Evaluation, and Mitigation ( http://arxiv.org/abs/2404.01030v3 )

ライセンス: Link先を確認
Yixin Wan, Arjun Subramonian, Anaelia Ovalle, Zongyu Lin, Ashima Suvarna, Christina Chance, Hritik Bansal, Rebecca Pattichis, Kai-Wei Chang, (参考訳) OpenAIのDALLE-3やGoogleのGeminiなど、テキスト・ツー・イメージ(T2I)生成機能を備えた大規模で強力なモデルの最近の進歩により、ユーザはテキスト・プロンプトから高品質な画像を生成することができる。 しかし、単純なプロンプトであっても、T2Iモデルが生成した画像に顕著な社会的バイアスを生じさせる可能性がますます高まっている。 このような偏見は、社会における割当と代表の双方の害を招き、さらに少数派を疎外する可能性がある。 この問題に注目して、最近の多くの研究が、T2Iシステムの様々な次元のバイアスの研究に費やされている。 しかし、これらの研究の広範なレビューが欠如しており、現在の進歩と研究ギャップの体系的な理解を妨げている。 本研究は,T2I生成モデルにおけるバイアスに関する最初の広範な調査である。 本稿では, 偏見の次元に関する先行研究, ジェンダー, スキントン, ジオカルチャーについて概説する。 具体的には、これらの研究がどのようにバイアスの異なる側面を定義し、評価し、緩和するかについて議論する。 その結果,(1) 性別とスキントーンの偏見は広く研究されているが,(2) 性別とスキントーンの偏見は未調査であり,(2) 性別とスキントーンの偏見に関する研究はほとんど調査されていない。 現在の限界に基づいて、人間の中心的な定義、評価、偏見の緩和に寄与する今後の研究の方向性を指摘する。 私たちは、T2Iシステムにおけるバイアスを研究することの重要性を強調し、バイアスを理解して対処し、公正で信頼できるT2I技術を誰にとっても構築する将来の取り組みを奨励したいと考えています。

The recent advancement of large and powerful models with Text-to-Image (T2I) generation abilities -- such as OpenAI's DALLE-3 and Google's Gemini -- enables users to generate high-quality images from textual prompts. However, it has become increasingly evident that even simple prompts could cause T2I models to exhibit conspicuous social bias in generated images. Such bias might lead to both allocational and representational harms in society, further marginalizing minority groups. Noting this problem, a large body of recent works has been dedicated to investigating different dimensions of bias in T2I systems. However, an extensive review of these studies is lacking, hindering a systematic understanding of current progress and research gaps. We present the first extensive survey on bias in T2I generative models. In this survey, we review prior studies on dimensions of bias: Gender, Skintone, and Geo-Culture. Specifically, we discuss how these works define, evaluate, and mitigate different aspects of bias. We found that: (1) while gender and skintone biases are widely studied, geo-cultural bias remains under-explored; (2) most works on gender and skintone bias investigated occupational association, while other aspects are less frequently studied; (3) almost all gender bias works overlook non-binary identities in their studies; (4) evaluation datasets and metrics are scattered, with no unified framework for measuring biases; and (5) current mitigation methods fail to resolve biases comprehensively. Based on current limitations, we point out future research directions that contribute to human-centric definitions, evaluations, and mitigation of biases. We hope to highlight the importance of studying biases in T2I systems, as well as encourage future efforts to holistically understand and tackle biases, building fair and trustworthy T2I technologies for everyone.
翻訳日:2024-05-03 21:21:42 公開日:2024-05-01
# 英語のLLMとRobust Pronoun Fidelity: Reasoning, Repeating, Just Biased?

Robust Pronoun Fidelity with English LLMs: Are they Reasoning, Repeating, or Just Biased? ( http://arxiv.org/abs/2404.03134v2 )

ライセンス: Link先を確認
Vagrant Gautam, Eileen Bingert, Dawei Zhu, Anne Lauscher, Dietrich Klakow, (参考訳) 個人に対するロバストで忠実で無害な代名詞の使用は、使用が増加するにつれて言語モデルにとって重要な目標である。 組み合わせた目的に向けての進捗を測定するために,共参照エンティティと代名詞を導入したコンテキストが与えられた場合,そのタスクは後に正しい代名詞を再利用する。 アーキテクチャ(エンコーダのみ、デコーダのみ、エンコーダのみ、およびデコーダのみ、およびデコーダのみ)とスケール(11M-70Bパラメータ)で37のポピュラーな大言語モデルを評価する。 個人が代名詞を伴って導入された場合、モデルは次の文でほぼ忠実にこの代名詞を再利用することができるが、彼女(彼女)、彼女(彼女)、彼女(彼女)、特異人(彼女)、新代名詞(ネオプラノヌス)ではかなり悪化する。 さらに、モデルは、他の人について議論する非敵対的な文によって容易に注意をそらすことができ、さらに、気を散らす代名詞を持つ1つの追加文でさえ、平均で34%の精度低下を引き起こす。 この結果から, 代名詞の忠実度は, 人間が100%近い精度を達成できるような, 単純で自然主義的な環境では, 頑健ではないことが示唆された。 表面的な反復がモデルパフォーマンスの知覚を刺激する可能性のある環境では、研究者が発見するギャップを埋め、推論を慎重に評価することを奨励します。

Robust, faithful and harm-free pronoun use for individuals is an important goal for language models as their use increases, but prior work tends to study only one or two of these characteristics at a time. To measure progress towards the combined goal, we introduce the task of pronoun fidelity: given a context introducing a co-referring entity and pronoun, the task is to reuse the correct pronoun later. We present RUFF, a carefully-designed dataset of over 5 million instances to measure robust pronoun fidelity in English, and we evaluate 37 popular large language models across architectures (encoder-only, decoder-only and encoder-decoder) and scales (11M-70B parameters). When an individual is introduced with a pronoun, models can mostly faithfully reuse this pronoun in the next sentence, but they are significantly worse with she/her/her, singular they and neopronouns. Moreover, models are easily distracted by non-adversarial sentences discussing other people; even one additional sentence with a distractor pronoun causes accuracy to drop on average by 34%. Our results show that pronoun fidelity is neither robust, nor due to reasoning, in a simple, naturalistic setting where humans achieve nearly 100% accuracy. We encourage researchers to bridge the gaps we find and to carefully evaluate reasoning in settings where superficial repetition might inflate perceptions of model performance.
翻訳日:2024-05-03 21:21:42 公開日:2024-05-01
# オンラインテスト時間適応のためのドメイン特化ブロック選択とペアビュー擬似ラベル

Domain-Specific Block Selection and Paired-View Pseudo-Labeling for Online Test-Time Adaptation ( http://arxiv.org/abs/2404.10966v2 )

ライセンス: Link先を確認
Yeonguk Yu, Sungho Shin, Seunghyeok Back, Minhwan Ko, Sangjun Noh, Kyoobin Lee, (参考訳) テスト時適応(TTA)は、事前トレーニングされたモデルを、デプロイ後にソースデータにアクセスすることなく、新しいテストドメインに適応することを目的としている。 既存のアプローチは、テストデータからグラウンドトルースを得ることができないため、通常擬似ラベルによる自己学習に依存している。 疑似ラベルの品質は、安定かつ正確な長期適応には重要であるが、それ以前には言及されていない。 本研究では,(1)ドメイン固有のブロック選択と(2)ペアビュー画像を用いた擬似ラベル生成という2つのコンポーネントからなる,シンプルで効果的なTTAフレームワークであるDPLOTを提案する。 具体的には、ドメイン固有の特徴抽出を含むブロックを選択し、エントロピー最小化によってこれらのブロックを訓練する。 現在のテスト領域に対してブロックを調整した後、与えられたテスト画像とそれに対応するフリップした画像を平均化して擬似ラベルを生成する。 単にフリップ拡張を用いることで、強い拡張によって生じるドメインギャップによって引き起こされる擬似ラベルの品質低下を防止する。 実験の結果、DPLOTはCIFAR10-C、CIFAR100-C、ImageNet-Cベンチマークにおいて従来のTTA手法よりも優れており、エラーを最大5.4%、9.1%、そして2.9%削減できることがわかった。 また,フレームワークの有効性を実証するための広範な分析を行う。 コードはhttps://github.com/gist-ailab/ domain-specific-block-selection-and-paired-view-pseudo-labeling-for-online-TTAで公開されている。

Test-time adaptation (TTA) aims to adapt a pre-trained model to a new test domain without access to source data after deployment. Existing approaches typically rely on self-training with pseudo-labels since ground-truth cannot be obtained from test data. Although the quality of pseudo labels is important for stable and accurate long-term adaptation, it has not been previously addressed. In this work, we propose DPLOT, a simple yet effective TTA framework that consists of two components: (1) domain-specific block selection and (2) pseudo-label generation using paired-view images. Specifically, we select blocks that involve domain-specific feature extraction and train these blocks by entropy minimization. After blocks are adjusted for current test domain, we generate pseudo-labels by averaging given test images and corresponding flipped counterparts. By simply using flip augmentation, we prevent a decrease in the quality of the pseudo-labels, which can be caused by the domain gap resulting from strong augmentation. Our experimental results demonstrate that DPLOT outperforms previous TTA methods in CIFAR10-C, CIFAR100-C, and ImageNet-C benchmarks, reducing error by up to 5.4%, 9.1%, and 2.9%, respectively. Also, we provide an extensive analysis to demonstrate effectiveness of our framework. Code is available at https://github.com/gist-ailab/domain-specific-block-selection-and-paired-view-pseudo-labeling-for-on line-TTA.
翻訳日:2024-05-03 21:11:56 公開日:2024-05-01
# VideoGigaGAN:ビデオの超解像化を目指す

VideoGigaGAN: Towards Detail-rich Video Super-Resolution ( http://arxiv.org/abs/2404.12388v2 )

ライセンス: Link先を確認
Yiran Xu, Taesung Park, Richard Zhang, Yang Zhou, Eli Shechtman, Feng Liu, Jia-Bin Huang, Difan Liu, (参考訳) ビデオ・スーパーレゾリューション(VSR)アプローチは、アップサンプリングされたビデオに顕著な時間的一貫性を示す。 しかしながら、これらのアプローチは、生成能力に制限があるため、画像よりもぼやけた結果を生成する傾向がある。 時間的一貫性を維持しながら、生成的イメージアップサンプリングをVSRタスクに拡張できるだろうか? 本稿では,高頻度の細部と時間的整合性を持つビデオを生成する新しい生成型VSRモデルであるVideoGigaGANを紹介する。 VideoGigaGANは、大規模なイメージアップサンプラー、GigaGANをベースとしている。 時間的加群を追加することで、GigaGANをビデオモデルに単純に膨らませることによって、重度の時間的フリッカリングが発生する。 我々は、いくつかの重要な問題を特定し、アップサンプリングされたビデオの時間的一貫性を大幅に改善する手法を提案する。 我々の実験では、従来のVSR法とは異なり、ビデオGigaGANはよりきめ細かな外観で時間的に一貫した映像を生成する。 ビデオGigaGANの有効性は、公開データセット上の最先端のVSRモデルと比較し、その結果を8\times$スーパーレゾリューションで示すことによって検証する。

Video super-resolution (VSR) approaches have shown impressive temporal consistency in upsampled videos. However, these approaches tend to generate blurrier results than their image counterparts as they are limited in their generative capability. This raises a fundamental question: can we extend the success of a generative image upsampler to the VSR task while preserving the temporal consistency? We introduce VideoGigaGAN, a new generative VSR model that can produce videos with high-frequency details and temporal consistency. VideoGigaGAN builds upon a large-scale image upsampler -- GigaGAN. Simply inflating GigaGAN to a video model by adding temporal modules produces severe temporal flickering. We identify several key issues and propose techniques that significantly improve the temporal consistency of upsampled videos. Our experiments show that, unlike previous VSR methods, VideoGigaGAN generates temporally consistent videos with more fine-grained appearance details. We validate the effectiveness of VideoGigaGAN by comparing it with state-of-the-art VSR models on public datasets and showcasing video results with $8\times$ super-resolution.
翻訳日:2024-05-03 21:11:56 公開日:2024-05-01
# FlagVNE: ネットワークリソース割り当てのためのフレキシブルで汎用的な強化学習フレームワーク

FlagVNE: A Flexible and Generalizable Reinforcement Learning Framework for Network Resource Allocation ( http://arxiv.org/abs/2404.12633v4 )

ライセンス: Link先を確認
Tianfu Wang, Qilin Fan, Chao Wang, Long Yang, Leilei Ding, Nicholas Jing Yuan, Hui Xiong, (参考訳) VNE(Virtual Network Embedding)は、仮想ネットワーク要求(VNR)を物理インフラにマッピングすることを目的とした、ネットワーク仮想化における重要なリソース割り当てタスクである。 強化学習(RL)は近年,この問題に対する有望な解決策として浮上している。 しかし、既存のRLベースのVNE法は、一方向のアクション設計と一方向のトレーニング戦略によって制限されており、探索性や一般化性が制限される。 本稿では,FLexible And Generalizable RL framework for VNE(FragVNE)を提案する。 具体的には,仮想ノードと物理ノードの同時選択を可能にする双方向動作に基づくマルコフ決定プロセスモデルを設計し,解空間の探索性を向上させる。 広範かつダイナミックな動作空間に取り組むために,適応的な動作確率分布を生成し,高い訓練効率を確保する階層型デコーダを設計する。 さらに, 様々なVNRサイズに対する一般化問題を克服するために, 各VNRサイズに対する専門的な政策訓練を容易にする, カリキュラムスケジューリング戦略を備えたメタRLベースのトレーニング手法を提案する。 最後に、多数の実験結果から、FragVNEが複数の主要な指標にまたがって有効であることが示されている。 私たちのコードはGitHubで入手可能です(https://github.com/GeminiLight/flag-vne)。

Virtual network embedding (VNE) is an essential resource allocation task in network virtualization, aiming to map virtual network requests (VNRs) onto physical infrastructure. Reinforcement learning (RL) has recently emerged as a promising solution to this problem. However, existing RL-based VNE methods are limited by the unidirectional action design and one-size-fits-all training strategy, resulting in restricted searchability and generalizability. In this paper, we propose a FLexible And Generalizable RL framework for VNE, named FlagVNE. Specifically, we design a bidirectional action-based Markov decision process model that enables the joint selection of virtual and physical nodes, thus improving the exploration flexibility of solution space. To tackle the expansive and dynamic action space, we design a hierarchical decoder to generate adaptive action probability distributions and ensure high training efficiency. Furthermore, to overcome the generalization issue for varying VNR sizes, we propose a meta-RL-based training method with a curriculum scheduling strategy, facilitating specialized policy training for each VNR size. Finally, extensive experimental results show the effectiveness of FlagVNE across multiple key metrics. Our code is available at GitHub (https://github.com/GeminiLight/flag-vne).
翻訳日:2024-05-03 21:11:56 公開日:2024-05-01
# 自動生成テストコンテンツにおける公平性問題

Identifying Fairness Issues in Automatically Generated Testing Content ( http://arxiv.org/abs/2404.15104v2 )

ライセンス: Link先を確認
Kevin Stowe, Benny Longwill, Alyssa Francis, Tatsuya Aoyama, Debanjan Ghosh, Swapna Somasundaran, (参考訳) 自然言語生成ツールは、コンテンツを生成するのに強力で効果的です。 しかし、言語モデルはバイアスや公平性の問題を示すことで知られており、多くのユースケースにデプロイするのは現実的ではない。 ここでは、フェアネスの問題が自動生成されたテストコンテンツにどのように影響するかに注目します。 具体的には、大規模な標準化された英語習熟度テストのために生成されたテスト内容について、テスト人口の特定のサブセットに関連するコンテンツと、一部のテスト受験者に動揺または気を散らす可能性があるコンテンツとを識別することを目的としてレビューする。 このような問題は、テストテイカーのスコアに必然的に影響を及ぼす可能性があるため、避けるべきである。 この種のコンテンツは、一般的に認識されている偏見を反映していないため、セーフガードを含むモダンなモデルでさえ難しい。 フェアネスにアノテートされた601個のテキストのデータセットを構築し、微調整、トピックベースの分類、プロンプトなど、さまざまな方法で分類する方法を探索する。 即時自己補正と少数ショット学習を組み合わせることで,F1スコアが0.79になるのに対して,BERTとトピックベースのモデルの方がはるかに小さなモデルでは,ドメイン外データ上での競合性能が向上することがわかった。

Natural language generation tools are powerful and effective for generating content. However, language models are known to display bias and fairness issues, making them impractical to deploy for many use cases. We here focus on how fairness issues impact automatically generated test content, which can have stringent requirements to ensure the test measures only what it was intended to measure. Specifically, we review test content generated for a large-scale standardized English proficiency test with the goal of identifying content that only pertains to a certain subset of the test population as well as content that has the potential to be upsetting or distracting to some test takers. Issues like these could inadvertently impact a test taker's score and thus should be avoided. This kind of content does not reflect the more commonly-acknowledged biases, making it challenging even for modern models that contain safeguards. We build a dataset of 601 generated texts annotated for fairness and explore a variety of methods for classification: fine-tuning, topic-based classification, and prompting, including few-shot and self-correcting prompts. We find that combining prompt self-correction and few-shot learning performs best, yielding an F1 score of 0.79 on our held-out test set, while much smaller BERT- and topic-based models have competitive performance on out-of-domain data.
翻訳日:2024-05-03 21:11:56 公開日:2024-05-01
# 2次元アーキテクチャにおける高コヒーレンスKerr-cat量子ビット

High-Coherence Kerr-cat qubit in 2D architecture ( http://arxiv.org/abs/2404.16697v2 )

ライセンス: Link先を確認
Ahmed Hajr, Bingcheng Qing, Ke Wang, Gerwin Koolstra, Zahra Pedramrazi, Ziqi Kang, Larry Chen, Long B. Nguyen, Christian Junger, Noah Goss, Irwin Huang, Bibek Bhandari, Nicholas E. Frattini, Shruti Puri, Justin Dressel, Andrew N. Jordan, David Santiago, Irfan Siddiqi, (参考訳) Kerr-cat量子ビット(Kerr-cat qubit)は、Kerr非線形性を持つ発振器に2光子駆動を適用することにより、多光子シュロディンガー猫状態が安定化されるボソニック量子ビットである。 猫サイズの増大に伴う抑制ビットフリップ率により、この量子ビットはノイズバイアス量子ビットに適した量子誤り訂正符号を実装するための有望な候補となる。 しかし、この量子ビットの安定化と制御に必要な強力な光-物質相互作用を達成するためには、伝統的に、量子ビットを加熱して性能を低下させる強いマイクロ波駆動が必要である。 対照的に、駆動ポートとの結合を増大させることで、パーセルの大規模な崩壊を犠牲にして、強い駆動の必要性がなくなる。 有効帯域ブロックフィルタをオンチップに統合することにより、このトレードオフを克服し、高コヒーレンスを有するスケーラブルな2D超伝導回路におけるKerr-cat量子ビットを実現する。 このフィルタは、安定化および読み出しに必要な周波数で無視可能な減衰で、キュービット周波数で30dBのアイソレーションを提供する。 実験では、8個の光子を持つ猫に対して99.6%の量子非破壊読み出し率を実験的に実証した。 また、この量子ビットを高忠実に普遍的に制御するために、高速なラビ振動とX(90)ゲートの新たなデモを安定化ドライブの位相変調により組み合わせる。 最後に、回路の理論解析と整合して、1ms以上のビットフリップ時間と位相フリップ時間の線形減少しか達成しない発振器における最大10光子の猫の大きさの関数として、このアーキテクチャの寿命を調べた。 我々の量子ビットは、小さなフットプリントを持つフォールトトレラント量子プロセッサのビルディングブロックとして有望であることを示している。

The Kerr-cat qubit is a bosonic qubit in which multi-photon Schrodinger cat states are stabilized by applying a two-photon drive to an oscillator with a Kerr nonlinearity. The suppressed bit-flip rate with increasing cat size makes this qubit a promising candidate to implement quantum error correction codes tailored for noise-biased qubits. However, achieving strong light-matter interactions necessary for stabilizing and controlling this qubit has traditionally required strong microwave drives that heat the qubit and degrade its performance. In contrast, increasing the coupling to the drive port removes the need for strong drives at the expense of large Purcell decay. By integrating an effective band-block filter on-chip, we overcome this trade-off and realize a Kerr-cat qubit in a scalable 2D superconducting circuit with high coherence. This filter provides 30 dB of isolation at the qubit frequency with negligible attenuation at the frequencies required for stabilization and readout. We experimentally demonstrate quantum non-demolition readout fidelity of 99.6% for a cat with 8 photons. Also, to have high-fidelity universal control over this qubit, we combine fast Rabi oscillations with a new demonstration of the X(90) gate through phase modulation of the stabilization drive. Finally, the lifetime in this architecture is examined as a function of the cat size of up to 10 photons in the oscillator achieving a bit-flip time higher than 1 ms and only a linear decrease in the phase-flip time, in good agreement with the theoretical analysis of the circuit. Our qubit shows promise as a building block for fault-tolerant quantum processors with a small footprint.
翻訳日:2024-05-03 21:02:11 公開日:2024-05-01
# DAM:マルチモーダルタイムリー暗号トレンド予測のためのユニバーサルデュアルアテンションメカニズム

DAM: A Universal Dual Attention Mechanism for Multimodal Timeseries Cryptocurrency Trend Forecasting ( http://arxiv.org/abs/2405.00522v1 )

ライセンス: Link先を確認
Yihang Fu, Mingyu Zhou, Luyao Zhang, (参考訳) 分散システムの世界では、ブロックチェーンが暗号通貨の台頭を触媒し、セキュリティの強化と分散化と大きな投資機会を融合している。 その可能性にもかかわらず、暗号通貨のトレンド予測に関する現在の研究は、金融市場のダイナミクスと外部の感情の影響の微妙な相互作用を十分に考慮することなく、感情データをシンプルにマージすることで、しばしば不足する。 本稿では,マルチモーダル時系列データを用いて暗号通貨のトレンドを予測するためのDAM(Dual Attention Mechanism)を提案する。 我々のアプローチは、重要な暗号通貨のメトリクスと、CryptoBERTを通じて分析されたニュースやソーシャルメディアからの感情データを統合することで、暗号市場における固有のボラティリティと予測課題に対処します。 本手法は,分散システム,自然言語処理,財務予測といった要素を組み合わせることで,LSTMやTransformerといった従来のモデルよりも最大20倍の精度で性能を向上する。 この進歩は分散システムの理解を深め、金融市場において実践的な意味を持ち、暗号通貨やブロックチェーン技術のステークホルダーに恩恵を与える。 さらに、我々の強化された予測手法は、戦略的計画とブロックチェーン技術の効率的な採用を容易にし、急速に進化するデジタル資産ドメインにおける運用効率と金融リスク管理を改善し、最適なリソース割り当てを確保することで、分散科学(DeSci)を著しく支援することができる。

In the distributed systems landscape, Blockchain has catalyzed the rise of cryptocurrencies, merging enhanced security and decentralization with significant investment opportunities. Despite their potential, current research on cryptocurrency trend forecasting often falls short by simplistically merging sentiment data without fully considering the nuanced interplay between financial market dynamics and external sentiment influences. This paper presents a novel Dual Attention Mechanism (DAM) for forecasting cryptocurrency trends using multimodal time-series data. Our approach, which integrates critical cryptocurrency metrics with sentiment data from news and social media analyzed through CryptoBERT, addresses the inherent volatility and prediction challenges in cryptocurrency markets. By combining elements of distributed systems, natural language processing, and financial forecasting, our method outperforms conventional models like LSTM and Transformer by up to 20\% in prediction accuracy. This advancement deepens the understanding of distributed systems and has practical implications in financial markets, benefiting stakeholders in cryptocurrency and blockchain technologies. Moreover, our enhanced forecasting approach can significantly support decentralized science (DeSci) by facilitating strategic planning and the efficient adoption of blockchain technologies, improving operational efficiency and financial risk management in the rapidly evolving digital asset domain, thus ensuring optimal resource allocation.
翻訳日:2024-05-03 21:02:11 公開日:2024-05-01
# データ可視化教育におけるChatGPT : 学生の視点から

ChatGPT in Data Visualization Education: A Student Perspective ( http://arxiv.org/abs/2405.00748v1 )

ライセンス: Link先を確認
Nam Wook Kim, Hyung-Kwon Ko, Grace Myers, Benjamin Bach, (参考訳) 事前にプログラムされた応答に依存する従来の教育チャットボットとは異なり、ChatGPTのような大規模言語モデル駆動チャットボットは、優れた汎用性を示し、高度な概念理解から複雑な問題を解決するための動的リソースとして機能する可能性がある。 本研究では,これらの技術が学際的,プロジェクト指向のデータ可視化コースにおける学生の学習に与える影響について検討する。 学期を通じて、データ視覚化やTableau、D3、Vega-liteといったさまざまなツールを使ってChatGPTを実践する4つの異なるプロジェクトに従事した。 課題の後に学生の会話記録とリフレクション調査を収集した。 また,ChatGPTの総合的経験を深く把握するために,選ばれた学生へのインタビューを行った。 分析では,ChatGPTの活用のメリットと障壁,学生の質問行動,支援のタイプ,課題の成果とエンゲージメントに与える影響について検討した。 本研究は,ChatGPTの基本インターフェースを超越した,データ可視化教育に適した教育ソリューションの設計について考察する。

Unlike traditional educational chatbots that rely on pre-programmed responses, large-language model-driven chatbots, such as ChatGPT, demonstrate remarkable versatility and have the potential to serve as a dynamic resource for addressing student needs from understanding advanced concepts to solving complex problems. This work explores the impact of such technology on student learning in an interdisciplinary, project-oriented data visualization course. Throughout the semester, students engaged with ChatGPT across four distinct projects, including data visualizations and implementing them using a variety of tools including Tableau, D3, and Vega-lite. We collected conversation logs and reflection surveys from the students after each assignment. In addition, we conducted interviews with selected students to gain deeper insights into their overall experiences with ChatGPT. Our analysis examined the advantages and barriers of using ChatGPT, students' querying behavior, the types of assistance sought, and its impact on assignment outcomes and engagement. Based on the findings, we discuss design considerations for an educational solution that goes beyond the basic interface of ChatGPT, specifically tailored for data visualization education.
翻訳日:2024-05-03 20:52:21 公開日:2024-05-01
# より良くなった: 複数のソースによるディープドメイン適応

More is Better: Deep Domain Adaptation with Multiple Sources ( http://arxiv.org/abs/2405.00749v1 )

ライセンス: Link先を確認
Sicheng Zhao, Hui Chen, Hu Huang, Pengfei Xu, Guiguang Ding, (参考訳) 多くの実践的応用において、最先端のディープニューラルネットワークをトレーニングするための大規模ラベル付きデータを得ることは困難で費用がかかることが多い。 したがって、学習した知識を別個のラベル付きソースドメインから未ラベルまたは疎ラベルのターゲットドメインに転送することが魅力的な選択肢となる。 しかし、直接移動はドメインシフトによる大きな性能低下をもたらすことが多い。 ドメイン適応(DA)は、ソースとターゲットドメイン間の分布を調整することでこの問題に対処することを目的としている。 マルチソースドメイン適応(MDA)は、ラベル付きデータを異なる分布を持つ複数のソースから収集できる、強力で実用的な拡張である。 本調査ではまず,様々なMDA戦略を定義した。 そして、異なる視点から学習時代の最新のMDA手法を体系的に要約し、比較し、その後、よく使われるデータセットと簡単なベンチマークを行った。 最後に,MDAの今後の研究方向性について検討する。

In many practical applications, it is often difficult and expensive to obtain large-scale labeled data to train state-of-the-art deep neural networks. Therefore, transferring the learned knowledge from a separate, labeled source domain to an unlabeled or sparsely labeled target domain becomes an appealing alternative. However, direct transfer often results in significant performance decay due to domain shift. Domain adaptation (DA) aims to address this problem by aligning the distributions between the source and target domains. Multi-source domain adaptation (MDA) is a powerful and practical extension in which the labeled data may be collected from multiple sources with different distributions. In this survey, we first define various MDA strategies. Then we systematically summarize and compare modern MDA methods in the deep learning era from different perspectives, followed by commonly used datasets and a brief benchmark. Finally, we discuss future research directions for MDA that are worth investigating.
翻訳日:2024-05-03 20:52:21 公開日:2024-05-01
# キーボードからチャットボット: 子どものためのコンピュータ思考を教えるための大規模言語モデルを用いたAIを活用した統合プラットフォーム

From Keyboard to Chatbot: An AI-powered Integration Platform with Large-Language Models for Teaching Computational Thinking for Young Children ( http://arxiv.org/abs/2405.00750v1 )

ライセンス: Link先を確認
Changjae Lee, Jinjun Xiong, (参考訳) 幼少期(4~9歳)のプログラミング教育はコンピュータ科学の最近の動きで人気を博している。 しかし、現代の実践では、幼児の発達的準備能力の持続性、複雑なタスクを小さなタスクに分解すること、抽象プログラミングから具体的な結果への直感的なマッピングの必要性、限られたスクリーンタイム露光など、いくつかの根本的な問題を無視している。 本稿では,幼児の計算思考を効果的に教えるための,AIを活用した統合プラットフォームを用いた新しい方法論を提案する。 このシステムは、計算思考を教えるためのトップダウンとボトムアップの両方のアプローチをサポートするハイブリッドペタゴギーを備えている。 幼児は自然言語で目的のタスクを記述できるが、システムは分解されたサブタスクの適切なレベルからなる理解し易いプログラムで応答することができる。 有形ロボットは、直ちに分解されたプログラムを実行し、そのプログラムの結果を幼児に示すことができる。 このシステムは、幼児と自然言語で対話できるインテリジェントなチャットボットを備えており、子どもたちはチャットボットと話し、必要なプログラミングタスクをすべて完了し、チャットボットはプログラムの実行をロボットにオーケストレーションする。 これにより、幼児向けのキーボードが完全に不要になる。 このようなシステムを開発することにより、子どもに計算思考の概念をより使いやすくし、明示的なプログラミングスキルを必要とせず、プログラミング概念の自然な理解を育むことを目指す。 本システムは,ロボットエージェントの対話的体験を通じて,幼児期のコンピュータサイエンス教育における教育技術の分野に寄与し,子供たちを効果的に取り組もうとしている。

Teaching programming in early childhood (4-9) to enhance computational thinking has gained popularity in the recent movement of computer science for all. However, current practices ignore some fundamental issues resulting from young children's developmental readiness, such as the sustained capability to keyboarding, the decomposition of complex tasks to small tasks, the need for intuitive mapping from abstract programming to tangible outcomes, and the limited amount of screen time exposure. To address these issues in this paper, we present a novel methodology with an AI-powered integration platform to effectively teach computational thinking for young children. The system features a hybrid pedagogy that supports both the top-down and bottom-up approach for teaching computational thinking. Young children can describe their desired task in natural language, while the system can respond with an easy-to-understand program consisting of the right level of decomposed sub-tasks. A tangible robot can immediately execute the decomposed program and demonstrate the program's outcomes to young children. The system is equipped with an intelligent chatbot that can interact with young children through natural languages, and children can speak to the chatbot to complete all the needed programming tasks, while the chatbot orchestrates the execution of the program onto the robot. This would completely eliminates the need of keyboards for young children to program. By developing such a system, we aim to make the concept of computational thinking more accessible to young children, fostering a natural understanding of programming concepts without the need of explicit programming skills. Through the interactive experience provided by the robotic agent, our system seeks to engage children in an effective manner, contributing to the field of educational technology for early childhood computer science education.
翻訳日:2024-05-03 20:52:21 公開日:2024-05-01
# F$3$low:SE(3)ガイドフローマッチングを用いたフレーム間粗粒分子動力学

F$^3$low: Frame-to-Frame Coarse-grained Molecular Dynamics with SE(3) Guided Flow Matching ( http://arxiv.org/abs/2405.00751v1 )

ライセンス: Link先を確認
Shaoning Li, Yusong Wang, Mingyu Li, Jian Zhang, Bin Shao, Nanning Zheng, Jian Tang, (参考訳) 分子動力学(英: molecular dynamics, MD)は、生体系をシミュレートする重要な手法であり、その動的性質を探索し、その機能や性質の理解を促進する。 探索の非効率性に対処するため,粗粒化 (CG) や生成モデルなどの改良されたサンプリング手法が採用されている。 そこで本研究では, 改良サンプリングのためのガイド付き \underline{Frame-to-Frame}-matching (F$3$low) を用いた生成モデルを提案する。 (a) CGモデリングの領域を SE(3) リーマン多様体に拡張する。 b) フローマッチングモデルによる前フレームによる自己回帰サンプリングとしてのCGMDシミュレーションの後退 c) タンパク質のバックボーンを標的とし、二次構造の形成と複雑な折り畳み経路に関する洞察を改良した。 以前の方法と比較して、F$3$low は共形空間のより広い探索を可能にする。 SE(3)上の無力な生成パラダイムにより、多種多様なコンフォメーションを迅速に生成する能力は、効率的なサンプリング方法への道を開く。

Molecular dynamics (MD) is a crucial technique for simulating biological systems, enabling the exploration of their dynamic nature and fostering an understanding of their functions and properties. To address exploration inefficiency, emerging enhanced sampling approaches like coarse-graining (CG) and generative models have been employed. In this work, we propose a \underline{Frame-to-Frame} generative model with guided \underline{Flow}-matching (F$3$low) for enhanced sampling, which (a) extends the domain of CG modeling to the SE(3) Riemannian manifold; (b) retreating CGMD simulations as autoregressively sampling guided by the former frame via flow-matching models; (c) targets the protein backbone, offering improved insights into secondary structure formation and intricate folding pathways. Compared to previous methods, F$3$low allows for broader exploration of conformational space. The ability to rapidly generate diverse conformations via force-free generative paradigm on SE(3) paves the way toward efficient enhanced sampling methods.
翻訳日:2024-05-03 20:52:21 公開日:2024-05-01
# HMAMP:超体積駆動型多目的抗微生物ペプチドの設計

HMAMP: Hypervolume-Driven Multi-Objective Antimicrobial Peptides Design ( http://arxiv.org/abs/2405.00753v1 )

ライセンス: Link先を確認
Li Wang, Yiping Li, Xiangzheng Fu, Xiucai Ye, Junfeng Shi, Gary G. Yen, Xiangxiang Zeng, (参考訳) 抗微生物ペプチド(AMP)は、多剤耐性菌と戦うバイオマテリアルとして前例のない可能性を示した。 新たなAMP設計に人工知能が採用されつつあるにもかかわらず、活動、溶血、毒性といった対立する属性に関する課題は、研究者の進歩を著しく妨げている。 本稿では,AMP設計における複数の属性を考慮したパラダイムシフトを提案する。 ここでは、ハイパーボリューム駆動型多目的抗微生物ペプチド設計(HMAMP)と呼ばれる新しいアプローチを紹介し、AMPの複数属性の同時最適化を優先する。 超体積最大化の概念に根ざした強化学習と勾配降下アルゴリズムの相乗化により、HMAMPは探索空間を効果的に拡張し、パターン崩壊の問題を緩和する。 本手法は,様々な属性のバランスを崩すような,多種多様なAMP候補を生成する。 さらに、これらの候補AMPのパレートフロントに沿って膝点をピンポイントする。 5つのベンチマークモデルに対する実験結果から、HMAMPが設計したAMPは競争性能と多様性の向上を実証した。 10個の候補AMPに対するヘリカル構造と分子動力学シミュレーションの詳細な解析は、多目的AMP設計の領域におけるHMAMPの優位性を検証する。 複数の属性を考慮したAMPを体系的に構築するHMAMPの能力は先駆的なマイルストーンであり、AMPの多目的設計のための普遍的な計算フレームワークを確立している。

Antimicrobial peptides (AMPs) have exhibited unprecedented potential as biomaterials in combating multidrug-resistant bacteria. Despite the increasing adoption of artificial intelligence for novel AMP design, challenges pertaining to conflicting attributes such as activity, hemolysis, and toxicity have significantly impeded the progress of researchers. This paper introduces a paradigm shift by considering multiple attributes in AMP design. Presented herein is a novel approach termed Hypervolume-driven Multi-objective Antimicrobial Peptide Design (HMAMP), which prioritizes the simultaneous optimization of multiple attributes of AMPs. By synergizing reinforcement learning and a gradient descent algorithm rooted in the hypervolume maximization concept, HMAMP effectively expands exploration space and mitigates the issue of pattern collapse. This method generates a wide array of prospective AMP candidates that strike a balance among diverse attributes. Furthermore, we pinpoint knee points along the Pareto front of these candidate AMPs. Empirical results across five benchmark models substantiate that HMAMP-designed AMPs exhibit competitive performance and heightened diversity. A detailed analysis of the helical structures and molecular dynamics simulations for ten potential candidate AMPs validates the superiority of HMAMP in the realm of multi-objective AMP design. The ability of HMAMP to systematically craft AMPs considering multiple attributes marks a pioneering milestone, establishing a universal computational framework for the multi-objective design of AMPs.
翻訳日:2024-05-03 20:52:21 公開日:2024-05-01
# CLIPArTT: CLIPのテスト時間における新しいドメインへの軽量適応

CLIPArTT: Light-weight Adaptation of CLIP to New Domains at Test Time ( http://arxiv.org/abs/2405.00754v1 )

ライセンス: Link先を確認
Gustavo Adolfo Vargas Hakim, David Osowiechi, Mehrdad Noori, Milad Cheraghalikhani, Ali Bahri, Moslem Yazdanpanah, Ismail Ben Ayed, Christian Desrosiers, (参考訳) CLIPで実証された事前学習された視覚言語モデル(VLM)は、追加のトレーニングなしでゼロショット分類タスク間で顕著な適応性を示す。 しかし、そのパフォーマンスはドメインシフトの存在によって低下する。 本稿では,CLIPの完全テスト時間適応(TTA)アプローチであるCLIPArTT(CLIP Adaptation duRing Test-Time)を紹介する。 提案手法では,複数の予測クラスを1つの新しいテキストプロンプトに集約し,擬似ラベルとして入力をトランスダクティブな方法で再分類する。 さらに、VLMの領域におけるTTAベンチマーク(例えば、TENT)の標準化を開拓した。 CIFAR-10, CIFAR-10-C や CIFAR-10.1, VisDA-C などの合成データセットとともに, CIFAR-10, CIFAR-10.1, CIFAR-10-C, CIFAR-10.1 などの非故障データセットに対して,新たなトランスフォーメーションや新たなトレーニング可能なモジュールを必要とせずに, CLIPArTT は動的にパフォーマンスを向上する。 この研究は、新しいテストタイム戦略を通じてVLMの適応性を向上させる可能性を強調し、さまざまなデータセットや環境にまたがる堅牢なパフォーマンスの洞察を提供する。 コードは以下の通り。 https://github.com/dosowiechi/CLIPArTT.git

Pre-trained vision-language models (VLMs), exemplified by CLIP, demonstrate remarkable adaptability across zero-shot classification tasks without additional training. However, their performance diminishes in the presence of domain shifts. In this study, we introduce CLIP Adaptation duRing Test-Time (CLIPArTT), a fully test-time adaptation (TTA) approach for CLIP, which involves automatic text prompts construction during inference for their use as text supervision. Our method employs a unique, minimally invasive text prompt tuning process, wherein multiple predicted classes are aggregated into a single new text prompt, used as pseudo label to re-classify inputs in a transductive manner. Additionally, we pioneer the standardization of TTA benchmarks (e.g., TENT) in the realm of VLMs. Our findings demonstrate that, without requiring additional transformations nor new trainable modules, CLIPArTT enhances performance dynamically across non-corrupted datasets such as CIFAR-10, corrupted datasets like CIFAR-10-C and CIFAR-10.1, alongside synthetic datasets such as VisDA-C. This research underscores the potential for improving VLMs' adaptability through novel test-time strategies, offering insights for robust performance across varied datasets and environments. The code can be found at: https://github.com/dosowiechi/CLIPArTT.git
翻訳日:2024-05-03 20:52:21 公開日:2024-05-01
# アルツハイマー病早期スクリーニングのための量子AI

Quantum AI for Alzheimer's disease early screening ( http://arxiv.org/abs/2405.00755v1 )

ライセンス: Link先を確認
Giacomo Cappiello, Filippo Caruso, (参考訳) 量子機械学習は、量子情報科学と機械学習を組み合わせた新しい研究分野である。 量子コンピューティング技術は、古典的なAIよりも大規模なデータセットを効率的に扱うことができるため、健康分野の問題を解決するのに特に適しているように思われる。 アルツハイマー病は神経変性性脳障害であり、主に高齢者に影響を及ぼし、重要な認知障害を引き起こす。 認知症の最も一般的な原因であり、記憶、思考、学習能力、運動制御に影響を及ぼす。 この種の疾患には治療法がないため、早期診断はその影響の軽減に不可欠である。 筆跡解析は、多くの研究が予想しているように、診断に有効である。 DARWIN(Diagnosis AlzheimeR WIth haNdwriting)データセットには、アルツハイマー病に罹患した人々と健康な人々のグループによる手書きのサンプルが含まれている。 ここでは、このユースケースに量子AIを適用します。 特に、このデータセットを用いて、カーネルメソッドを分類タスクとしてテストし、それらの性能を量子機械学習手法で得られたものと比較する。 量子および古典的アルゴリズムは同様の性能を達成でき、場合によっては量子法の性能も向上する。 我々の研究結果は、医療領域における早期スクリーニング診断における新しい量子機械学習応用の道を開くものである。

Quantum machine learning is a new research field combining quantum information science and machine learning. Quantum computing technologies seem to be particularly well suited to solving problems in the health sector in an efficient way, because they may deal with large datasets more efficiently than classical AI. Alzheimer's disease is a neurodegenerative brain disorder that mostly affects elderly people, causing important cognitive impairments. It is the most common cause of dementia and it has an effect on memory, thought, learning abilities and movement control. This type of disease has no cure, consequently an early diagnosis is fundamental for reducing its impact. The analysis of handwriting can be effective for diagnosing, as many researches have conjectured. The DARWIN (Diagnosis AlzheimeR WIth haNdwriting) dataset contains handwriting samples from people affected by Alzheimer's disease and a group of healthy people. Here we apply quantum AI to this use-case. In particular, we use this dataset to test kernel methods for classification task and compare their performances with the ones obtained via quantum machine learning methods. We find that quantum and classical algorithms achieve similar performances and in some cases quantum methods perform even better. Our results pave the way for future new quantum machine learning applications in early-screening diagnostics in the healthcare domain.
翻訳日:2024-05-03 20:42:37 公開日:2024-05-01
# テキストと画像の拡散モデル調整のための深部回帰シミュレーション

Deep Reward Supervisions for Tuning Text-to-Image Diffusion Models ( http://arxiv.org/abs/2405.00760v1 )

ライセンス: Link先を確認
Xiaoshi Wu, Yiming Hao, Manyuan Zhang, Keqiang Sun, Zhaoyang Huang, Guanglu Song, Yu Liu, Hongsheng Li, (参考訳) 与えられた報酬関数を用いたテキスト・画像拡散モデルの最適化は重要であるが、未探索の研究領域である。 本研究では,テキスト・ツー・イメージ拡散モデルの最終出力画像を直接監督し,繰り返しサンプリング処理から入力ノイズへのバックプロパゲートを行うアルゴリズムであるDeep Reward Tuning(DRTune)を提案する。 サンプリングプロセスにおける早期の訓練は,低レベルの報奨に不可欠であり,ネットワーク入力の勾配を抑えることにより,より効率的に,効果的に深層監視を行うことができることがわかった。 DRTuneは様々な報酬モデルで広く評価されている。 他のアルゴリズム、特に浅い監視方法がすべて失敗する低レベル制御信号よりも一貫して優れています。 さらに、DRTuneを介して安定拡散XL 1.0(SDXL 1.0)モデルを微調整し、Human Preference Score v2.1を最適化し、FDXL 1.0(Favorable Diffusion XL 1.0)モデルを作成する。 FDXL 1.0はSDXL 1.0に比べて画質が大幅に向上し、Midjourney v5.2と同等の画質に達した。

Optimizing a text-to-image diffusion model with a given reward function is an important but underexplored research area. In this study, we propose Deep Reward Tuning (DRTune), an algorithm that directly supervises the final output image of a text-to-image diffusion model and back-propagates through the iterative sampling process to the input noise. We find that training earlier steps in the sampling process is crucial for low-level rewards, and deep supervision can be achieved efficiently and effectively by stopping the gradient of the denoising network input. DRTune is extensively evaluated on various reward models. It consistently outperforms other algorithms, particularly for low-level control signals, where all shallow supervision methods fail. Additionally, we fine-tune Stable Diffusion XL 1.0 (SDXL 1.0) model via DRTune to optimize Human Preference Score v2.1, resulting in the Favorable Diffusion XL 1.0 (FDXL 1.0) model. FDXL 1.0 significantly enhances image quality compared to SDXL 1.0 and reaches comparable quality compared with Midjourney v5.2.
翻訳日:2024-05-03 20:42:37 公開日:2024-05-01
# マルコフ体制を超えた開量子系のシュウィンガー・ケルディシュ非平衡量子場理論:スピン-ボソンモデルへの応用

Schwinger-Keldysh nonequilibrium quantum field theory of open quantum systems beyond the Markovian regime: Application to the spin-boson model ( http://arxiv.org/abs/2405.00765v1 )

ライセンス: Link先を確認
Felipe Reyes-Osorio, Federico Garcia-Gaitan, David J. Strachan, Petr Plechac, Stephen R. Clark, Branislav K. Nikolic, (参考訳) 我々は、散逸した環境と相互作用するオープン量子系に対するシュウィンガー・ケルディッシュ場理論(SKFT)を開発し、その環境がボソニックバスで構成された古典的な例としてスピンボソンモデルに適用する。 このタイプの以前のSKFTの発展は、時間局所行列微分方程式であるリンドブラッド量子マスター方程式(英語版)(QME)による従来の記述の代替としてマルコフ系に限られていた。 ここで SKFT と 2-粒子既約 (2PI) の作用を組み合わせ、ファインマン図形のクラスを無限次とする。 スピン密度行列の時間進化は、マルコフ型と非マルコフ型の両方に適用される積分微分方程式の体系の形で得られる。 メモリ効果を考慮に入れた後者の体制は不可欠であり、システムや浴槽、時間進化の長さの任意の特性を取り入れようとする場合、標準的な手法では課題となる。 マルコフ系におけるスピン期待値のSKFT+2PI計算時間進化はリンドブラッドQMEの解を再現する。 非マルコフ系では、SKFT+2PIは、我々がベンチマークとして使用する運動の階層方程式とテンソルネットワークの手法の両方の結果を模倣する非摂動解が得られる。 我々のSKFT+2PIアプローチは、ゼロ温度やサブオーミックバス、任意の長い進化時間など、困難なケースにもアクセスできます。 SKFT+2PIアプローチは、スピン数、時間ステップまたは次元が増加する積分微分方程式を解くための好ましい数値コストを考慮して、様々な(単一または複数)散逸環境の存在下で、量子コンピューティングや量子マグノニクス、スピントロニクスにおける駆動散逸系のシミュレーションのための有望な経路を提供する。

We develop a Schwinger-Keldysh field theory (SKFT) for open quantum systems interacting with a dissipative environment and apply it to the spin-boson model as an archetypical example where the environment is composed of a bosonic bath. Prior SKFT developments of this type have been confined to the Markovian regime, as an alternative to a conventional description by the Lindblad quantum master equation (QME) which is a time-local matrix differential equation. Here we combine SKFT with a two-particle irreducible (2PI) action that resums a class of Feynman diagrams to infinite order. We obtain the time-evolution of the spin density matrix in the form of a system of integro-differential equations applicable to both Markovian and non-Markovian regimes. The latter regime--where taking into account memory effects becomes essential--poses a challenge for standard methods when trying to incorporate arbitrary properties of the system, bath, and length of time evolution. The SKFT+2PI-computed time evolution of the spin expectation values in the Markovian regime reproduces the solution of the Lindblad QME, as long as the system-bath coupling in the latter is adjusted by increasing it. In the non-Markovian regime, SKFT+2PI yields a nonperturbative solution that mimics results from both hierarchical equations of motion and tensor networks methods that we employ as benchmarks. Our SKFT+2PI approach can also access challenging cases, such as zero-temperature and sub-Ohmic bath, as well as arbitrary long evolution times. Taking into account favorable numerical cost of solving the integro-differential equations with increasing number of spins, time steps or dimensionality the SKFT+2PI approach offers a promising route for simulation of driven-dissipative systems in quantum computing or quantum magnonics and spintronics in the presence of a variety of (single or multiple) dissipative environments.
翻訳日:2024-05-03 20:42:37 公開日:2024-05-01
# 量子力学における不定因数順序の実験的側面

Experimental Aspects of Indefinite Causal Order in Quantum Mechanics ( http://arxiv.org/abs/2405.00767v1 )

ライセンス: Link先を確認
Lee A. Rozema, Teodor Strömberg, Huan Cao, Yu Guo, Bi-Heng Liu, Philip Walther, (参考訳) 過去10年間で、量子情報のツールキットは、基本的な操作が明確な因果関係を持たないプロセスを含むように拡張された。 もともと、量子力学と一般相対性理論の統一の文脈において、これらの因果不確定なプロセスは、量子計算から量子メートル法まで幅広い量子情報処理タスクに利点をもたらすことが示されている。 ここでは、これらの利点の概要と、それらを実現するための実験的取り組みについて概説する。 本研究は, 各種実験技術と, 実験支援のために開発された理論手法の両方について検討し, 現状の実験結果の解釈を議論し, 今後の展望を述べる。

In the past decade, the toolkit of quantum information has been expanded to include processes in which the basic operations do not have definite causal relations. Originally considered in the context of the unification of quantum mechanics and general relativity, these causally indefinite processes have been shown to offer advantages in a wide variety of quantum information processing tasks, ranging from quantum computation to quantum metrology. Here we overview these advantages and the experimental efforts to realise them. We survey both the different experimental techniques employed, as well as theoretical methods developed in support of the experiments, before discussing the interpretations of current experimental results and giving an outlook on the future of the field.
翻訳日:2024-05-03 20:42:37 公開日:2024-05-01
# 雑音を伴わない浅回路学習における量子古典的分離

Quantum-Classical Separations in Shallow-Circuit-Based Learning with and without Noises ( http://arxiv.org/abs/2405.00770v1 )

ライセンス: Link先を確認
Zhihan Zhang, Weiyuan Gong, Weikang Li, Dong-Ling Deng, (参考訳) 定深さ(浅い)回路に基づく古典的および量子的教師付き学習モデル間の量子古典的分離をノイズのないシナリオで研究する。 我々は、ノイズのない浅量子回路で定義される分類問題を構築し、境界接続を持つ任意の古典的ニューラルネットワークが、指数的に小さい確率で正確に出力するために対数深度を必要とすることを厳密に証明する。 この非条件に近い量子-古典的分離は、量子回路と古典的回路を区別する量子非局所性の性質に由来する。 さらに, 脱分極雑音モデルの下での近接量子デバイス上でのこのような分離を示すためのノイズ閾値を導出する。 この分離は、雑音強度がシステムサイズに対して逆多項式によって上界された場合に持続し、ノイズ強度が逆多元関数よりも大きい場合には消滅することを示す。 また、雑音強度が一定である量子デバイスに対しては、学習モデルを規定する回路の構造によらず、浅いクリフォード回路で定義される任意の分類タスクに対して、超多項式古典量子分離が存在しないことを証明している。

We study quantum-classical separations between classical and quantum supervised learning models based on constant depth (i.e., shallow) circuits, in scenarios with and without noises. We construct a classification problem defined by a noiseless shallow quantum circuit and rigorously prove that any classical neural network with bounded connectivity requires logarithmic depth to output correctly with a larger-than-exponentially-small probability. This unconditional near-optimal quantum-classical separation originates from the quantum nonlocality property that distinguishes quantum circuits from their classical counterparts. We further derive the noise thresholds for demonstrating such a separation on near-term quantum devices under the depolarization noise model. We prove that this separation will persist if the noise strength is upper bounded by an inverse polynomial with respect to the system size, and vanish if the noise strength is greater than an inverse polylogarithmic function. In addition, for quantum devices with constant noise strength, we prove that no super-polynomial classical-quantum separation exists for any classification task defined by shallow Clifford circuits, independent of the structures of the circuits that specify the learning models.
翻訳日:2024-05-03 20:42:37 公開日:2024-05-01
# 変分量子コンピューティングにおけるバレン高原の概観

A Review of Barren Plateaus in Variational Quantum Computing ( http://arxiv.org/abs/2405.00781v1 )

ライセンス: Link先を確認
Martin Larocca, Supanut Thanasilp, Samson Wang, Kunal Sharma, Jacob Biamonte, Patrick J. Coles, Lukasz Cincio, Jarrod R. McClean, Zoë Holmes, M. Cerezo, (参考訳) 変分量子コンピューティングは、様々な分野で応用される柔軟な計算パラダイムを提供する。 しかし、その可能性を実現するための重要な障害はバレン高原(BP)現象である。 モデルがBPを示すと、パラメータ最適化のランドスケープは指数関数的に平坦になり、問題のサイズが大きくなると特徴がなくなる。 重要なことに、アルゴリズムの動く部分 -- アンザッツ、初期状態、観測可能、損失関数、ハードウェアノイズ -- は、不適切な場合にBPにつながる可能性がある。 BPのトレーニング性に対する影響が大きいため、研究者は、その効果を理解し緩和するための理論的およびヒューリスティックな方法の開発に多大な努力を払ってきた。 その結果、BPの研究は、量子最適制御、テンソルネットワーク、学習理論などの他の分野に影響を与え、交叉する研究の活発な領域となった。 本稿では,BP現象の現在の理解について概観する。

Variational quantum computing offers a flexible computational paradigm with applications in diverse areas. However, a key obstacle to realizing their potential is the Barren Plateau (BP) phenomenon. When a model exhibits a BP, its parameter optimization landscape becomes exponentially flat and featureless as the problem size increases. Importantly, all the moving pieces of an algorithm -- choices of ansatz, initial state, observable, loss function and hardware noise -- can lead to BPs when ill-suited. Due to the significant impact of BPs on trainability, researchers have dedicated considerable effort to develop theoretical and heuristic methods to understand and mitigate their effects. As a result, the study of BPs has become a thriving area of research, influencing and cross-fertilizing other fields such as quantum optimal control, tensor networks, and learning theory. This article provides a comprehensive review of the current understanding of the BP phenomenon.
翻訳日:2024-05-03 20:42:37 公開日:2024-05-01
# 剛動的モード分解:コップマン作用素に対するデータ駆動一般化固有関数分解

Rigged Dynamic Mode Decomposition: Data-Driven Generalized Eigenfunction Decompositions for Koopman Operators ( http://arxiv.org/abs/2405.00782v1 )

ライセンス: Link先を確認
Matthew J. Colbrook, Catherine Drysdale, Andrew Horning, (参考訳) そこで我々は,Koopman演算子の一般化固有関数分解を計算するRiged Dynamic Mode Decomposition (Rigged DMD)アルゴリズムを提案する。 可観測物の進化を考えることで、クープマン作用素は複素非線形力学をスペクトル解析に適した線形フレームワークに変換する。 強力な動的モード分解(DMD)技術は、しばしば連続スペクトルと競合する。 Rigged DMDは、クープマン作用素のリゾルバと、システムの進化からスナップショットデータを用いて一般化された固有関数を近似するデータ駆動方法論を用いて、これらの課題に対処する。 Rigged DMDはその中核として、一般的なクープマン固有関数とモードのためのウェーブパケット近似を構築し、測定保存拡張動的モード分解と高次カーネルをスムース化するために統合する。 これにより、離散的および連続的なスペクトル要素の両方を包含する堅牢な分解が得られる。 一般化固有関数とスペクトル測度に対する明示的な高階収束定理を導出する。 さらに,時間遅延埋め込みを応用してリップしたヒルベルト空間を構築するための新しいフレームワークを提案し,アルゴリズムの適用性を著しく拡張した。 例として、ルベーグスペクトルを持つ系、可積分ハミルトニアン系、ローレンツ系、および2次元正方形空洞内の高レイノルズ数蓋駆動流れを例示し、Riged DMDの収束、効率、汎用性を示す。 この研究は、連続スペクトルによる分解の研究と応用の道を開くものである。

We introduce the Rigged Dynamic Mode Decomposition (Rigged DMD) algorithm, which computes generalized eigenfunction decompositions of Koopman operators. By considering the evolution of observables, Koopman operators transform complex nonlinear dynamics into a linear framework suitable for spectral analysis. While powerful, traditional Dynamic Mode Decomposition (DMD) techniques often struggle with continuous spectra. Rigged DMD addresses these challenges with a data-driven methodology that approximates the Koopman operator's resolvent and its generalized eigenfunctions using snapshot data from the system's evolution. At its core, Rigged DMD builds wave-packet approximations for generalized Koopman eigenfunctions and modes by integrating Measure-Preserving Extended Dynamic Mode Decomposition with high-order kernels for smoothing. This provides a robust decomposition encompassing both discrete and continuous spectral elements. We derive explicit high-order convergence theorems for generalized eigenfunctions and spectral measures. Additionally, we propose a novel framework for constructing rigged Hilbert spaces using time-delay embedding, significantly extending the algorithm's applicability. We provide examples, including systems with a Lebesgue spectrum, integrable Hamiltonian systems, the Lorenz system, and a high-Reynolds number lid-driven flow in a two-dimensional square cavity, demonstrating Rigged DMD's convergence, efficiency, and versatility. This work paves the way for future research and applications of decompositions with continuous spectra.
翻訳日:2024-05-03 20:42:37 公開日:2024-05-01
# 多体傷モデルにおける準Nambu-Goldstoneモード

Quasi-Nambu-Goldstone modes in many-body scar models ( http://arxiv.org/abs/2405.00785v1 )

ライセンス: Link先を確認
Jie Ren, Yu-Peng Wang, Chen Fang, (参考訳) 準対称性-群の観点から [Phys. Lett. 126, 120604 (2021)] から、縮退極限における多体スカーモデルにおいて、小さなモータを持つ集合的、コヒーレントな励起モードが普遍的に存在することを示す。 これらのモードの数とそれらが持つ量子数は、ハミルトンの対称性ではなく、スカータワーの準対称性によって与えられる。 これに基づいて、自発対称性の破れのパラダイムと退化極限における多体スカー物理との具体的な類似性を描く。

From the quasisymmetry-group perspective [Phys. Rev. Lett. 126, 120604 (2021)], we show the universal existence of collective, coherent modes of excitations with small momenta in many-body scar models in the degenerate limit, where the energy spacing in the scar tower vanishes. The number of these modes, as well as the quantum numbers carried by them, are given, not by the symmetry of the Hamiltonian, but by the quasisymmetry of the scar tower: hence the name quasi-Goldstone modes. Based on this, we draw a concrete analogy between the paradigm of spontaneous symmetry breaking and the many-body scar physics in the degenerate limit.
翻訳日:2024-05-03 20:42:37 公開日:2024-05-01
# 弱非可積分量子スピンダイナミクスの熱化減速

Thermalization slowing down of weakly nonintegrable quantum spin dynamics ( http://arxiv.org/abs/2405.00786v1 )

ライセンス: Link先を確認
Budhaditya Bhattacharjee, Alexei Andreanov, Sergej Flach, (参考訳) 量子多体系の熱分解速度を2つの異なる可積分限界へのアプローチにより遅くする。 1つの量子リアプノフ時間スケールは、適切に定義された時間で作用素の成長を定量化することで抽出され、もう1つのエルゴダイゼーション時間スケールは、固有状態の熱化仮説に基づく平均値に関する時間進化作用素のゆらぎの統計に関連付けられる。 パラダイム的な量子イジングチェーンを用いることで、どちらの時間スケールも積分可能性へのアプローチによって分岐することがわかった。 スケールの発散の相対的な強さは、特定の可積分極限に依存する。 これにより、量子熱化の2つの異なる普遍性クラス、すなわちショートレンジとロングレンジネットワークを定義することができる。

We study thermalization slowing down of a quantum many-body system upon approach to two distinct integrability limits. Motivated by previous studies of classical systems, we identify two thermalization time scales: one quantum Lyapunov time scale is extracted by quantifying operator growth in time in an appropriately defined basis, while another ergodization time scale is related to statistics of fluctuations of the time-evolved operator around its mean value based on the eigenstate thermalization hypothesis. Using a paradigmatic Quantum Ising chain we find that both timescales diverge upon approach to integrability. The relative strength of the divergence of the scales depends on the particular integrable limit. This allows us to define two different universality classes of quantum thermalization: short- and long-range networks.
翻訳日:2024-05-03 20:42:37 公開日:2024-05-01
# 古典的スポーフィングシステム 線形クロスエントロピースコアベンチマーク

Classically Spoofing System Linear Cross Entropy Score Benchmarking ( http://arxiv.org/abs/2405.00789v1 )

ライセンス: Link先を確認
Andrew Tanggara, Mile Gu, Kishor Bharti, (参考訳) 近年、いくつかの実験グループが『量子超越性』あるいは計算量子優位性の証明を主張している。 Google Quantum AIによる注目すべき最初の主張は、線形クロスエントロピーベンチマーク(Linear XEB)と呼ばれるメトリックを中心に展開されている。 線形XEBの複雑さ-理論的な硬さは、アーロンソンとガンが提唱したクロスエントロピー量子閾値(XQUATH)予想に依存しているため疑わしい。 量子ハミルトニアンシミュレーション(英語版)による量子超越性を実証する試みにおいて、SXES (System Linear Cross Entropy Score) と呼ばれる類似のベンチマーク指標は、上記の線形XEBと根本的な区別のため、上記の負の結果に固執する。 さらに、sXESの複雑さをスプーフィングすることの難しさ-理論上は系線形クロスエントロピー量子閾値推定(sXQUATH)にかかっているが、XQUATHとの形式的関係は不明確である。 sXESが将来の量子超越性の実証のために提供する約束にもかかわらず、この研究において、これは正当でないベンチマーク指標であることを示す。 特に,sXQUATHが線形深度回路を持たないことを示すとともに,ある閾値以上の雑音で劣化した実験のためにsXESをスプーフする古典的アルゴリズムを提案する。

In recent years, several experimental groups have claimed demonstrations of ``quantum supremacy'' or computational quantum advantage. A notable first claim by Google Quantum AI revolves around a metric called the Linear Cross Entropy Benchmarking (Linear XEB), which has been used in multiple quantum supremacy experiments since. The complexity-theoretic hardness of spoofing Linear XEB has nevertheless been doubtful due to its dependence on the Cross-Entropy Quantum Threshold (XQUATH) conjecture put forth by Aaronson and Gunn, which has been disproven for sublinear depth circuits. In efforts on demonstrating quantum supremacy by quantum Hamiltonian simulation, a similar benchmarking metric called the System Linear Cross Entropy Score (sXES) holds firm in light of the aforementioned negative result due to its fundamental distinction with Linear XEB. Moreover, the hardness of spoofing sXES complexity-theoretically rests on the System Linear Cross-Entropy Quantum Threshold Assumption (sXQUATH), the formal relationship of which to XQUATH is unclear. Despite the promises that sXES offers for future demonstration of quantum supremacy, in this work we show that it is an unsound benchmarking metric. Particularly, we prove that sXQUATH does not hold for sublinear depth circuits and present a classical algorithm that spoofs sXES for experiments corrupted with noise larger than certain threshold.
翻訳日:2024-05-03 20:42:37 公開日:2024-05-01
# SCAR: 異種マルチチップモジュールアクセラレータ上でのマルチモデルAIワークロードのスケジューリング

SCAR: Scheduling Multi-Model AI Workloads on Heterogeneous Multi-Chiplet Module Accelerators ( http://arxiv.org/abs/2405.00790v1 )

ライセンス: Link先を確認
Mohanad Odema, Luke Chen, Hyoukjun Kwon, Mohammad Abdullah Al Faruque, (参考訳) 最近の大規模言語モデルのような重モデルによるマルチモデルワークロードの創出は、ハードウェアにおける計算とメモリの要求を大幅に増加させた。 このような要求に対処するため、スケーラブルなハードウェアアーキテクチャを設計することが重要な問題となった。 最近のソリューションの中で、2.5D Silicon Interposer Multi-chip Module (MCM)ベースのAIアクセラレータは、エンジニアリングコストと構成性に大きなメリットがあるため、有望なスケーラブルなソリューションとして積極的に検討されている。 しかし、従来のMCMアクセラレータは、データフローが固定された均質アーキテクチャをベースとしており、ワークロード適応性に制限があるため、高度に異質なマルチモデルワークロードによる大きな課題に直面している。 そこで本研究では、異種データフローMCMAIアクセラレーターの機会を探究する。 6x6チップレット上の単一モデルの場合であってもO(10^18)スケールに達するという、その重要性とスケールのため、不均一なデータフローMCM AIアクセラレータ上でのマルチモデルワークロードのスケジューリングは重要かつ困難な問題である。 我々は,巨大なスケジューリング空間をナビゲートするヒューリスティックのセットを開発し,それらをパイプライン間パイプライニングのような高度な技術でスケジューラに符号化する。 データセンターのマルチテナンシとAR/VRのユースケースに対する10のマルチモデルワークロードシナリオに対する評価では,同質のベースラインに比べて平均35.3%,エネルギ遅延生成物(EDP)が31.4%減少し,本手法の有効性が示された。

Emerging multi-model workloads with heavy models like recent large language models significantly increased the compute and memory demands on hardware. To address such increasing demands, designing a scalable hardware architecture became a key problem. Among recent solutions, the 2.5D silicon interposer multi-chip module (MCM)-based AI accelerator has been actively explored as a promising scalable solution due to their significant benefits in the low engineering cost and composability. However, previous MCM accelerators are based on homogeneous architectures with fixed dataflow, which encounter major challenges from highly heterogeneous multi-model workloads due to their limited workload adaptivity. Therefore, in this work, we explore the opportunity in the heterogeneous dataflow MCM AI accelerators. We identify the scheduling of multi-model workload on heterogeneous dataflow MCM AI accelerator is an important and challenging problem due to its significance and scale, which reaches O(10^18) scale even for a single model case on 6x6 chiplets. We develop a set of heuristics to navigate the huge scheduling space and codify them into a scheduler with advanced techniques such as inter-chiplet pipelining. Our evaluation on ten multi-model workload scenarios for datacenter multitenancy and AR/VR use-cases has shown the efficacy of our approach, achieving on average 35.3% and 31.4% less energy-delay product (EDP) for the respective applications settings compared to homogeneous baselines.
翻訳日:2024-05-03 20:42:37 公開日:2024-05-01
# 複数オブジェクト生成のための好適レイアウトの実現

Obtaining Favorable Layouts for Multiple Object Generation ( http://arxiv.org/abs/2405.00791v1 )

ライセンス: Link先を確認
Barak Battash, Amit Rozner, Lior Wolf, Ofir Lindenbaum, (参考訳) テキストプロンプトに基づいて高品質で多様な画像を生成できる大規模テキスト・ツー・イメージモデルでは、顕著な成功を収めている。 これらのモデルは、究極的には複雑なシーンを作成することを目的としており、マルチオブジェクト生成の課題に対処することが、この目標に向けた重要なステップである。 しかし、既存の最先端拡散モデルでは、複数の被写体を含む画像を生成する際に困難に直面している。 複数の主題を含むプロンプトを提示すると、これらのモデルはいくつかの主題を省略したり、それらをマージしたりすることができる。 この課題に対処するために、ガイド原理に基づく新しいアプローチを提案する。 拡散モデルが最初にレイアウトを提案することを許し、それからレイアウトグリッドを並べ替えます。 これは、提案したマスクに固執するようにクロスアテンションマップ(XAM)を強制し、潜在マップから私たちによって決定された新しい場所へピクセルを移動させることによって達成される。 我々は,被験者の空間的定義を明確にするためのXAMエントロピーの低減,XAM間の重なり合いの低減,各マスクとの整合性の確保を目的とした新たな損失項を導入する。 我々はこのアプローチをいくつかの代替手法と対比し、様々なテキストプロンプトで望ましい概念をより忠実に捉えていることを示す。

Large-scale text-to-image models that can generate high-quality and diverse images based on textual prompts have shown remarkable success. These models aim ultimately to create complex scenes, and addressing the challenge of multi-subject generation is a critical step towards this goal. However, the existing state-of-the-art diffusion models face difficulty when generating images that involve multiple subjects. When presented with a prompt containing more than one subject, these models may omit some subjects or merge them together. To address this challenge, we propose a novel approach based on a guiding principle. We allow the diffusion model to initially propose a layout, and then we rearrange the layout grid. This is achieved by enforcing cross-attention maps (XAMs) to adhere to proposed masks and by migrating pixels from latent maps to new locations determined by us. We introduce new loss terms aimed at reducing XAM entropy for clearer spatial definition of subjects, reduce the overlap between XAMs, and ensure that XAMs align with their respective masks. We contrast our approach with several alternative methods and show that it more faithfully captures the desired concepts across a variety of text prompts.
翻訳日:2024-05-03 20:42:37 公開日:2024-05-01
# Agnostic PAC学習における誤差指数

Error Exponent in Agnostic PAC Learning ( http://arxiv.org/abs/2405.00792v1 )

ライセンス: Link先を確認
Adi Hendel, Meir Feder, (参考訳) 統計的学習理論と確率的近似(PAC)基準は、数学的学習理論に対する一般的なアプローチである。 PACは学習問題やアルゴリズムの分析に広く使われ、徹底的に研究されている。 収束率に関する一様最悪のケース境界は、例えばVC理論やラダマッハの複雑性を用いてよく確立されている。 しかし、典型的なシナリオでは、パフォーマンスの方がずっと良いでしょう。 本稿では, リスクがサンプルサイズの関数として一定の閾値を超える確率の指数的挙動を記述した, 誤り指数(情報理論におけるよく確立された解析手法)を用いたPAC学習について考察する。 我々は二項分類に焦点をあて、いくつかの安定性仮定の下で、幅広い問題に対する分布依存誤差指数の改善を行い、不可知学習におけるPAC誤差確率の指数的挙動を確立した。 興味深いことに、これらの仮定の下では、不可知学習は実現可能な学習と同じエラー指数を持つかもしれない。 誤差指数基準を知識蒸留の分析に適用することは、これまでのところ理論的解析に欠ける問題である。

Statistical learning theory and the Probably Approximately Correct (PAC) criterion are the common approach to mathematical learning theory. PAC is widely used to analyze learning problems and algorithms, and have been studied thoroughly. Uniform worst case bounds on the convergence rate have been well established using, e.g., VC theory or Radamacher complexity. However, in a typical scenario the performance could be much better. In this paper, we consider PAC learning using a somewhat different tradeoff, the error exponent - a well established analysis method in Information Theory - which describes the exponential behavior of the probability that the risk will exceed a certain threshold as function of the sample size. We focus on binary classification and find, under some stability assumptions, an improved distribution dependent error exponent for a wide range of problems, establishing the exponential behavior of the PAC error probability in agnostic learning. Interestingly, under these assumptions, agnostic learning may have the same error exponent as realizable learning. The error exponent criterion can be applied to analyze knowledge distillation, a problem that so far lacks a theoretical analysis.
翻訳日:2024-05-03 20:42:37 公開日:2024-05-01
# IMSIキャッチャー展開がセルネットワークセキュリティに及ぼす影響:4Gおよび5Gネットワークにおける課題と対策

The Impact of IMSI Catcher Deployments on Cellular Network Security: Challenges and Countermeasures in 4G and 5G Networks ( http://arxiv.org/abs/2405.00793v1 )

ライセンス: Link先を確認
Karwan Mustafa Kareem, (参考訳) IMSI(International Mobile Subscriber Identity、国際モバイル加入者識別)は、携帯電話ネットワークのセキュリティに重大な脅威をもたらすローグデバイスである。 IMSIキャッチャーは携帯電話の通信を傍受して操作でき、モバイルデバイスとそのユーザのプライバシーとセキュリティを損なう。 4Gおよび5Gネットワークの出現に伴い、IMSIキャッチャーはより高度になり、セルラーネットワークセキュリティに新たな課題を提起している[2]。 本稿では,IMSIキャッチャーの展開が4Gおよび5Gネットワークの文脈におけるセルネットワークセキュリティに与える影響について概説する。 IMSIキャッチャーがもたらす課題として、IMSI番号の不正収集、通信の傍受、加入者情報の潜在的誤用などについて論じる。 また、ユーザプライバシの妥協、金融詐欺、不正な監視など、IMSIのキャッチャー展開による潜在的な影響を強調している。 本報告では,IMSI捕食者によるリスク軽減に有効な対策について検討する。 これらの対策には、信号分析、暗号化、認証メカニズムといったネットワークベースのソリューションや、モバイルアプリケーションやデバイス設定といったユーザベースのソリューションが含まれる。 また、4Gネットワークと5Gネットワークの文脈におけるこれらの対策の限界と有効性についても論じる。 最後に,4Gおよび5Gネットワーク時代のIMSI捕集者に対する細胞ネットワークセキュリティ向上に向けた研究のギャップと今後の方向性を明らかにする。 これには、IMSIキャッチャーの配置を効果的に検出し防止する暗号化アルゴリズムの改善、認証メカニズム、検出技術などが含まれる。 また,ユーザプライバシとセキュリティを保護するため,IMSIキャッチャーの展開と利用を管理するための規制・政策の重要さを強調した。

IMSI (International Mobile Subscriber Identity) catchers, also known as "Stingrays" or "cell site simulators," are rogue devices that pose a significant threat to cellular network security [1]. IMSI catchers can intercept and manipulate cellular communications, compromising the privacy and security of mobile devices and their users. With the advent of 4G and 5G networks, IMSI catchers have become more sophisticated and pose new challenges to cellular network security [2]. This paper provides an overview of the impact of IMSI catcher deployments on cellular network security in the context of 4G and 5G networks. It discusses the challenges posed by IMSI catchers, including the unauthorized collection of IMSI numbers, interception of communications, and potential misuse of subscriber information. It also highlights the potential consequences of IMSI catcher deployments, including the compromise of user privacy, financial fraud, and unauthorized surveillance. The paper further reviews the countermeasures that can be employed to mitigate the risks posed by IMSI catchers. These countermeasures include network-based solutions such as signal analysis, encryption, and authentication mechanisms, as well as user-based solutions such as mobile applications and device settings. The paper also discusses the limitations and effectiveness of these countermeasures in the context of 4G and 5G networks. Finally, the paper identifies research gaps and future directions for enhancing cellular network security against IMSI catchers in the era of 4G and 5G networks. This includes the need for improved encryption algorithms, authentication mechanisms, and detection techniques to effectively detect and prevent IMSI catcher deployments. The paper also emphasizes the importance of regulatory and policy measures to govern the deployment and use of IMSI catchers to protect user privacy and security.
翻訳日:2024-05-03 20:42:37 公開日:2024-05-01
# 三面体核融合によるコヒーレント3次元画像再構成

Coherent 3D Portrait Video Reconstruction via Triplane Fusion ( http://arxiv.org/abs/2405.00794v1 )

ライセンス: Link先を確認
Shengze Wang, Xueting Li, Chao Liu, Matthew Chan, Michael Stengel, Josef Spjut, Henry Fuchs, Shalini De Mello, Koki Nagano, (参考訳) 近年、シングルイメージの3Dポートレートの再構築によって、テレプレゼンスシステムは1台のカメラからリアルタイムで3Dのポートレートビデオをストリーミングできるようになり、テレプレゼンスを民主化する可能性がある。 しかし、フレームごとの3D再構成は時間的不整合を示し、ユーザの外観を忘れる。 一方、自己再現法は、パーソナライズされた3Dイメージを事前に駆動することで、コヒーレントな3Dポートレートを描画することができるが、ユーザーのフレームごとの外観(例えば、表情や照明)を忠実に再構築することができない。 本研究では,コヒーレントアイデンティティと動的フレーム単位の外観の両立の必要性を認識し,最大限の現実性を実現する。 そこで本研究では,フレーム単位の情報に先立ってパーソナライズされた3D被験者を融合させ,時間的に安定な3D映像をユーザのフレーム単位の外観を忠実に再現するフュージョンベース手法を提案する。 表現条件付き3D GANで生成した合成データのみを用いて学習し, エンコーダを用いた解析により, 現状の3D再構成精度と時間的一貫性の両立を実現した。

Recent breakthroughs in single-image 3D portrait reconstruction have enabled telepresence systems to stream 3D portrait videos from a single camera in real-time, potentially democratizing telepresence. However, per-frame 3D reconstruction exhibits temporal inconsistency and forgets the user's appearance. On the other hand, self-reenactment methods can render coherent 3D portraits by driving a personalized 3D prior, but fail to faithfully reconstruct the user's per-frame appearance (e.g., facial expressions and lighting). In this work, we recognize the need to maintain both coherent identity and dynamic per-frame appearance to enable the best possible realism. To this end, we propose a new fusion-based method that fuses a personalized 3D subject prior with per-frame information, producing temporally stable 3D videos with faithful reconstruction of the user's per-frame appearances. Trained only using synthetic data produced by an expression-conditioned 3D GAN, our encoder-based method achieves both state-of-the-art 3D reconstruction accuracy and temporal consistency on in-studio and in-the-wild datasets.
翻訳日:2024-05-03 20:42:37 公開日:2024-05-01
# Bazelは継続的インテグレーションビルドの高速化に役立つか?

Does Using Bazel Help Speed Up Continuous Integration Builds? ( http://arxiv.org/abs/2405.00796v1 )

ライセンス: Link先を確認
Shenyu Zheng, Bram Adams, Ahmed E. Hassan, (参考訳) 長期の継続的インテグレーション(CI)ビルドでは、開発活動を開始する前に、CIフィードバックを待たなければならないため、時間が無駄になる。 過去に調査されたさまざまなビルドスケジューリングとテスト選択のヒューリスティックに加えて、Bazelのようなアーティファクトベースの新しいビルド技術は、並列ビルドやインクリメンタルビルド(ビルド結果のキャッシュ)といった高度なパフォーマンス最適化をサポートしています。 しかしながら、Bazelのような新しいビルド技術が、特に長期のプロジェクトにおいて、約束された利益をもたらすかについては、ほとんど分かっていない。 この調査では、GitHubから383のBazelプロジェクトを収集し、人気の高い4つのCIサービスでBazelの並列およびインクリメンタルビルド使用状況を調査し、結果をMavenプロジェクトと比較しました。 383のBazelプロジェクトで3500の実験を行い、70のビルド可能なプロジェクトのサブセットのビルドログを分析して、Bazelの並列ビルドのパフォーマンスへの影響を評価しました。 さらに、70のビルド可能なプロジェクトの過去100のコミットに対して、102,232の実験を行い、Bazelのインクリメンタルビルドパフォーマンスを評価しました。 私たちの結果は、Bazelプロジェクトの31.23%がCIサービスを採用しているが、CIサービスにはBazelを使用していないことを示している。 シーケンシャルビルドと比較すると、ビルド時間の中央値は2.0x, 3.84x, 7.36x, 12.80xで、並列性は2.4, 8, 16であり、クリーンビルドと比較して、インクリメンタルビルドは4.22x(ビルドシステムツールに依存しないCIキャッシュ)と4.71x(ビルドシステムツール固有のキャッシュ)の中央値のスピードアップを達成する。 私たちの結果は、開発者がプロジェクトにおけるBazelの使用を改善するためのガイダンスを提供します。

A long continuous integration (CI) build forces developers to wait for CI feedback before starting subsequent development activities, leading to time wasted. In addition to a variety of build scheduling and test selection heuristics studied in the past, new artifact-based build technologies like Bazel have built-in support for advanced performance optimizations such as parallel build and incremental build (caching of build results). However, little is known about the extent to which new build technologies like Bazel deliver on their promised benefits, especially for long-build duration projects. In this study, we collected 383 Bazel projects from GitHub, then studied their parallel and incremental build usage of Bazel in 4 popular CI services, and compared the results with Maven projects. We conducted 3,500 experiments on 383 Bazel projects and analyzed the build logs of a subset of 70 buildable projects to evaluate the performance impact of Bazel's parallel builds. Additionally, we performed 102,232 experiments on the 70 buildable projects' last 100 commits to evaluate Bazel's incremental build performance. Our results show that 31.23% of Bazel projects adopt a CI service but do not use Bazel in the CI service, while for those who do use Bazel in CI, 27.76% of them use other tools to facilitate Bazel's execution. Compared to sequential builds, the median speedups for long-build duration projects are 2.00x, 3.84x, 7.36x, and 12.80x, at parallelism degrees 2, 4, 8, and 16, respectively, even though, compared to a clean build, applying incremental build achieves a median speedup of 4.22x (with a build system tool-independent CI cache) and 4.71x (with a build system tool-specific cache) for long-build duration projects. Our results provide guidance for developers to improve the usage of Bazel in their projects.
翻訳日:2024-05-03 20:32:52 公開日:2024-05-01
# ADM:不確かさ下でのロバスト動作予測のための推定前処理による加速拡散モデル

ADM: Accelerated Diffusion Model via Estimated Priors for Robust Motion Prediction under Uncertainties ( http://arxiv.org/abs/2405.00797v1 )

ライセンス: Link先を確認
Jiahui Li, Tianle Shen, Zekai Gu, Jiawei Sun, Chengran Yuan, Yuhang Han, Shuo Sun, Marcelo H. Ang Jr, (参考訳) 運動予測は、システムが確率力学と実世界のエージェント相互作用のマルチモーダルな性質を理解することを要求するため、自律運転において難しい問題である。 拡散モデルは近年注目され、特に歩行者の動き予測タスクに有効であることが証明されている。 しかし、ノイズに対する時間消費と感度は拡散モデルのリアルタイム予測能力を制限している。 これらの障害に対する応答として,ノイズ耐性を増強したエージェントの将来の軌跡を適応的に予測する,拡散型・加速可能な新しいフレームワークを提案する。 我々のモデルの中核となる考え方は、軌道の粗い粒度の前の分布を学習することであり、これは多くの難解なステップをスキップすることができる。 この進歩によりサンプリング効率が向上するだけでなく、予測精度も向上する。 本手法は、自律走行車に必要な厳格なリアルタイム運転基準を満たし、安全かつ効率的な航法に不可欠な高速な軌道生成を可能にする。 実験により,提案手法は標準拡散モデルと比較して推定時間を136msに高速化し,Argoverse 1運動予測データセット上でのマルチエージェント動作予測を大幅に改善する。

Motion prediction is a challenging problem in autonomous driving as it demands the system to comprehend stochastic dynamics and the multi-modal nature of real-world agent interactions. Diffusion models have recently risen to prominence, and have proven particularly effective in pedestrian motion prediction tasks. However, the significant time consumption and sensitivity to noise have limited the real-time predictive capability of diffusion models. In response to these impediments, we propose a novel diffusion-based, acceleratable framework that adeptly predicts future trajectories of agents with enhanced resistance to noise. The core idea of our model is to learn a coarse-grained prior distribution of trajectory, which can skip a large number of denoise steps. This advancement not only boosts sampling efficiency but also maintains the fidelity of prediction accuracy. Our method meets the rigorous real-time operational standards essential for autonomous vehicles, enabling prompt trajectory generation that is vital for secure and efficient navigation. Through extensive experiments, our method speeds up the inference time to 136ms compared to standard diffusion model, and achieves significant improvement in multi-agent motion prediction on the Argoverse 1 motion forecasting dataset.
翻訳日:2024-05-03 20:32:52 公開日:2024-05-01
# Ask Me Anything:ComcastがLLMを使ってエージェントをリアルタイムで支援する方法

"Ask Me Anything": How Comcast Uses LLMs to Assist Agents in Real Time ( http://arxiv.org/abs/2405.00801v1 )

ライセンス: Link先を確認
Scott Rome, Tianwen Chen, Raphael Tang, Luwei Zhou, Ferhan Ture, (参考訳) カスタマーサービスとは、企業が顧客と対話する方法である。 顧客満足度全体に大きく貢献できます。 しかし、高品質なサービスは高価になり、可能な限りコスト効率を上げるインセンティブを生み出し、ほとんどの企業がAIアシスタント(チャットボット)を利用するように促す。 一方で、特に紛争や請求書支払いのようなセンシティブなトピックといった複雑なシナリオに関しては、顧客から人間へのインタラクションが依然として望まれています。 これにより、カスタマーサービスエージェントのバーが上がります。 顧客の質問や懸念を正確に理解し、受け入れがたいソリューションを特定し(そして会社の方針の中で)、同時に複数の会話を処理しなければなりません。 本稿ではエージェント対応のカスタマーサービスインターフェースにアドオン機能として"Ask Me Anything"(AMA)を導入します。 AMAは、エージェントが要求に応じて大きな言語モデル(LLM)に質問することを可能にする。 内部実験では、AMAと従来の検索体験のエージェントが、検索を含む会話の1秒あたり約10%短縮され、年間数百万ドルの貯蓄に変換されることがわかった。 AMA機能を使用したエージェントは80%近くを肯定的なフィードバックとして提供し、AIによるカスタマーケア機能としての有用性を示した。

Customer service is how companies interface with their customers. It can contribute heavily towards the overall customer satisfaction. However, high-quality service can become expensive, creating an incentive to make it as cost efficient as possible and prompting most companies to utilize AI-powered assistants, or "chat bots". On the other hand, human-to-human interaction is still desired by customers, especially when it comes to complex scenarios such as disputes and sensitive topics like bill payment. This raises the bar for customer service agents. They need to accurately understand the customer's question or concern, identify a solution that is acceptable yet feasible (and within the company's policy), all while handling multiple conversations at once. In this work, we introduce "Ask Me Anything" (AMA) as an add-on feature to an agent-facing customer service interface. AMA allows agents to ask questions to a large language model (LLM) on demand, as they are handling customer conversations -- the LLM provides accurate responses in real-time, reducing the amount of context switching the agent needs. In our internal experiments, we find that agents using AMA versus a traditional search experience spend approximately 10% fewer seconds per conversation containing a search, translating to millions of dollars of savings annually. Agents that used the AMA feature provided positive feedback nearly 80% of the time, demonstrating its usefulness as an AI-assisted feature for customer care.
翻訳日:2024-05-03 20:32:52 公開日:2024-05-01
# 暖地平線によるデコヒーレンス

Decoherence by warm horizons ( http://arxiv.org/abs/2405.00804v1 )

ライセンス: Link先を確認
Jordan Wilson-Gerow, Annika Dugad, Yanbei Chen, (参考訳) 最近、ダニエルソン、サティッシュシャンドラン、ウォルド(DSW)はキリング地平線の外にある量子重ね合わせが安定した速度で脱着することを示した。 これは軟質光子(重力子)が必然的に放射されるためであり、電磁(重力)の「その経路」の記憶を地平線に印加する。 このグローバルな記述に訴えるのではなく、実験者はデコヒーレンスの原因について局所的な記述を持つべきである。 直感的には、これはホーキング/ウンルー放射のシステムへの爆撃に過ぎないと推測されるかもしれないが、単純な計算ではこのアイデアに挑戦する。 本研究では、DSWセットアップをUnruh-DeWitt粒子検出器に似た世界局所化モデルにマッピングすることで、デコヒーレンスを局所的に記述する。 本稿では,長期にわたる自己平均値が十分でない局所的なランダムな力の解釈について述べる。 リンドラー地平線を具体例として、温度の重要な役割を明らかにし、アンルー効果がこれらのランダムな力の根底にある唯一の量子力学的効果であることを示す。 一般的な教訓は、中央系のオーミック摩擦(古典的なエイブラハム・ローレンツ・ディラック力から得られるように、加速するフレームにおいて)を誘導する環境に対して、ゆらぎ散逸定理は、この環境が有限温度であるとき、中央系の安定なデコヒーレンスを引き起こすことを意味する。 我々の結果はDSWと一致し、補完的な局所的な視点を提供する。

Recently Danielson, Satishchandran, and Wald (DSW) have shown that quantum superpositions held outside of Killing horizons will decohere at a steady rate. This occurs because of the inevitable radiation of soft photons (gravitons), which imprint a electromagnetic (gravitational) ``which-path'' memory onto the horizon. Rather than appealing to this global description, an experimenter ought to also have a local description for the cause of decoherence. One might intuitively guess that this is just the bombardment of Hawking/Unruh radiation on the system, however simple calculations challenge this idea -- the same superposition held in a finite temperature inertial laboratory does not decohere at the DSW rate. In this work we provide a local description of the decoherence by mapping the DSW set-up onto a worldline-localized model resembling an Unruh-DeWitt particle detector. We present an interpretation in terms of random local forces which do not sufficiently self-average over long times. Using the Rindler horizon as a concrete example we clarify the crucial role of temperature, and show that the Unruh effect is the only quantum mechanical effect underlying these random forces. A general lesson is that for an environment which induces Ohmic friction on the central system (as one gets from the classical Abraham-Lorentz-Dirac force, in an accelerating frame) the fluctuation-dissipation theorem implies that when this environment is at finite temperature it will cause steady decoherence on the central system. Our results agree with DSW and provide the complementary local perspective.
翻訳日:2024-05-03 20:32:52 公開日:2024-05-01
# 量子ダーウィン論のための2体ハミルトニアンの分類

Classifying two-body Hamiltonians for Quantum Darwinism ( http://arxiv.org/abs/2405.00805v1 )

ライセンス: Link先を確認
Emery Doucet, Sebastian Deffner, (参考訳) 量子ダーウィン主義(Quantum Darwinism)は、古典的に客観的な現実が量子宇宙の中でどのように現れるかを理解するパラダイムである。 この研究の分野が楽しまれているという関心が高まりつつあるにもかかわらず、ハミルトニアンがジェネリック量子系を記述する特定の性質が、古典性の出現を許さなければならないかどうかは現在分かっていない。 したがって、本研究では、任意の有限次元系が任意の有限次元自由度から形成される環境と相互作用する広範な応用的な一般モデルについて、少なくとも2体相互作用項を含む、不特定で潜在的に時間依存のハミルトニアンを通して考察する。 そのようなモデルは、ハミルトニアンに入る系に作用する作用素の集合が、可観測点と互いに可観測点との可換関係の集合を満たす場合、量子ダーウィン主義をサポートすることを示す。 クビット環境と相互作用するクビット・クビットモデル,時間的に交互に相互作用するクビット・クビットモデル,量子マックスウェル・デーモンの最小モデルを含む一連の衝突モデルなど,幅広い実例を解析することによって,我々の結果を実証する。

Quantum Darwinism is a paradigm to understand how classically objective reality emerges from within a fundamentally quantum universe. Despite the growing attention that this field of research as been enjoying, it is currently not known what specific properties a given Hamiltonian describing a generic quantum system must have to allow the emergence of classicality. Therefore, in the present work, we consider a broadly applicable generic model of an arbitrary finite-dimensional system interacting with an environment formed from an arbitrary collection of finite-dimensional degrees of freedom via an unspecified, potentially time-dependent Hamiltonian containing at most two-body interaction terms. We show that such models support quantum Darwinism if the set of operators acting on the system which enter the Hamiltonian satisfy a set of commutation relations with a pointer observable and with one other. We demonstrate our results by analyzing a wide range of example systems: a qutrit interacting with a qubit environment, a qubit-qubit model with interactions alternating in time, and a series of collision models including a minimal model of a quantum Maxwell demon.
翻訳日:2024-05-03 20:32:52 公開日:2024-05-01
# 大規模スパースネットワークにおけるコミュニティ構築

Sifting out communities in large sparse networks ( http://arxiv.org/abs/2405.00816v1 )

ライセンス: Link先を確認
Sharlee Climer, Kenneth Smith Jr, Wei Yang, Lisa de las Fuentes, Victor G. Dávila-Román, C. Charles Gu, (参考訳) 研究データセットは前例のない規模に成長しており、ネットワークモデリングは、病気、物流、社会社会に関わる遺伝的相互作用など、様々な領域における複雑な関係を抽出するために一般的に用いられている。 ネットワーク内のノード数が増加するにつれて、エッジの間隔の増大はメモリ制限による現実的な制限となる。 さらに、これらのスパースネットワークの多くは、隣接するエッジを持たないノードや、エッジを接続しないノードの解離したコンポーネントを非常に多く示している。 ネットワークモデリングにおける主な目的は、非常に相互関係の深いノードのクラスタ、またはコミュニティの識別である。 この課題を促進するために、いくつかの強いコミュニティ構造の定義が導入されており、それぞれに固有の仮定とバイアスがある。 大規模ネットワークにおけるクラスタリングの結果の質を定量化するための直感的な客観的関数を導入する。 本稿では,この領域に特に適したコミュニティを,ネットワークを解離コンポーネントに効率的に分割する第1ステップとして,第2ステップでは新たな目的に基づいて生成コンポーネントのクラスタリングを最適化する第2ステップとして,2段階の手法を用いる。 シミュレーションネットワークを用いることで、新しい目的関数に基づく最適化は、最もノイズの多いネットワークに最も広いギャップが現れるため、モジュラリティ関数に基づく最適化よりもはるかに高い精度が得られる。 さらに、ベンチマーク問題へのアプリケーションは、我々のアプローチの直感的な正しさを示している。 最後に,数万のノードからなる大規模ネットワークにおける複雑な遺伝的相互作用を同定する実世界のデータを用いて,本手法の実用性を実証した。 これら3つの異なる試行に基づいて,本研究の結果は2段階の手順の有用性と簡便な目的の正確さを明らかにした。

Research data sets are growing to unprecedented sizes and network modeling is commonly used to extract complex relationships in diverse domains, such as genetic interactions involved in disease, logistics, and social communities. As the number of nodes increases in a network, an increasing sparsity of edges is a practical limitation due to memory restrictions. Moreover, many of these sparse networks exhibit very large numbers of nodes with no adjacent edges, as well as disjoint components of nodes with no edges connecting them. A prevalent aim in network modeling is the identification of clusters, or communities, of nodes that are highly interrelated. Several definitions of strong community structure have been introduced to facilitate this task, each with inherent assumptions and biases. We introduce an intuitive objective function for quantifying the quality of clustering results in large sparse networks. We utilize a two-step method for identifying communities which is especially well-suited for this domain as the first step efficiently divides the network into the disjoint components, while the second step optimizes clustering of the produced components based on the new objective. Using simulated networks, optimization based on the new objective function consistently yields significantly higher accuracy than those based on the modularity function, with the widest gaps appearing for the noisiest networks. Additionally, applications to benchmark problems illustrate the intuitive correctness of our approach. Finally, the practicality of our approach is demonstrated in real-world data in which we identify complex genetic interactions in large-scale networks comprised of tens of thousands of nodes. Based on these three different types of trials, our results clearly demonstrate the usefulness of our two-step procedure and the accuracy of our simple objective.
翻訳日:2024-05-03 20:32:52 公開日:2024-05-01
# ICU血液ストリーム感染予測 : EHR分析のためのトランスフォーマーによるアプローチ

ICU Bloodstream Infection Prediction: A Transformer-Based Approach for EHR Analysis ( http://arxiv.org/abs/2405.00819v1 )

ライセンス: Link先を確認
Ortal Hirszowicz, Dvir Aran, (参考訳) 本稿では,集中治療室(ICU)における電子健康記録(EHR)データの予測分析を目的としたトランスフォーマーベースの新しいフレームワークであるRatchetEHRを紹介する。 MIMIC-IVデータセットを活用すると、RatchetEHRはRNN、LSTM、XGBoostなどの他の手法と比較して優れた予測性能を示す。 RatchetEHRにおける重要な革新は、Graph Convolutional Transformer (GCT) コンポーネントの統合である。 SHAP値分析を通じて,BSI予測に影響を及ぼす特徴について考察する。 RatchetEHRはディープラーニングの複数の進歩を統合し、比較的小さなサンプルサイズと高度に不均衡なデータセットであっても、正確な予測を提供する。 この研究は、医療における高度なAI技術の応用を示すことで医療情報学に寄与し、これらの能力をEHRデータ分析において最適化するためのさらなる研究の基盤となる。

We introduce RatchetEHR, a novel transformer-based framework designed for the predictive analysis of electronic health records (EHR) data in intensive care unit (ICU) settings, with a specific focus on bloodstream infection (BSI) prediction. Leveraging the MIMIC-IV dataset, RatchetEHR demonstrates superior predictive performance compared to other methods, including RNN, LSTM, and XGBoost, particularly due to its advanced handling of sequential and temporal EHR data. A key innovation in RatchetEHR is the integration of the Graph Convolutional Transformer (GCT) component, which significantly enhances the ability to identify hidden structural relationships within EHR data, resulting in more accurate clinical predictions. Through SHAP value analysis, we provide insights into influential features for BSI prediction. RatchetEHR integrates multiple advancements in deep learning which together provide accurate predictions even with a relatively small sample size and highly imbalanced dataset. This study contributes to medical informatics by showcasing the application of advanced AI techniques in healthcare and sets a foundation for further research to optimize these capabilities in EHR data analysis.
翻訳日:2024-05-03 20:32:52 公開日:2024-05-01
# HLSFactory: マシンラーニングなどのための高レベルな合成データセットを実現するフレームワーク

HLSFactory: A Framework Empowering High-Level Synthesis Datasets for Machine Learning and Beyond ( http://arxiv.org/abs/2405.00820v1 )

ライセンス: Link先を確認
Stefan Abi-Karam, Rishov Sarkar, Allison Seigler, Sean Lowe, Zhigang Wei, Hanqiu Chen, Nanditha Rao, Lizy John, Aman Arora, Cong Hao, (参考訳) 機械学習(ML)技術は、QoR予測と設計空間探索(DSE)のための高レベル合成(HLS)フローに適用されている。 それでも、アクセス可能な高品質なHLSデータセットの不足と、そのようなデータセットの構築の複雑さは、課題を提示している。 既存のデータセットには、ベンチマークカバレッジ、設計スペースの列挙、ベンダーの拡張性、あるいはデータセット構築のための再現可能で拡張可能なソフトウェアがないという制限がある。 多くの作品には、より多くのデザインを追加するためのユーザフレンドリな方法が欠けており、そのようなデータセットの採用が制限されている。 これらの課題に対応するため、高品質なHLS設計データセットのキュレーションと生成を容易にするために設計された包括的なフレームワークHLSFactoryを紹介した。 HLSFactoryには3つの主要なステージがある。 1)複数のベンダーツールにまたがる様々な最適化ディレクティブを用いて、単一のHLS設計を大きな設計空間に精巧にするための設計空間拡張ステージ。 2) HLS と FPGA ツールを同時に動作させる設計合成ステージ,及び 3) 標準化されたデータをML使用のためにパッケージ化されたデータセットに抽出するデータ集約ステージ。 この三部構成アーキテクチャは、設計空間の拡張を通じて広い設計空間をカバーし、複数のベンダーツールをサポートする。 ユーザはそれぞれのステージに独自のHLS設計と合成結果を提供し、フレームワーク自体を独自のフロントエンドとツールフローで拡張することができる。 また、オープンソースのHLS設計をキュレートした一般的なHLSベンチマークから、初期の組込み設計も含んでいます。 I)設計空間サンプリング, II) きめ細かい並列処理バックエンドの高速化, III) IntelのHLSフローのターゲット化, IV) 新しい補助設計の追加, V) 公開されたHLSデータの統合, VI) HLSツールバージョンレグレッションベンチマーク。 コードネームはhttps://github.com/sharc-lab/HLSFactory。

Machine learning (ML) techniques have been applied to high-level synthesis (HLS) flows for quality-of-result (QoR) prediction and design space exploration (DSE). Nevertheless, the scarcity of accessible high-quality HLS datasets and the complexity of building such datasets present challenges. Existing datasets have limitations in terms of benchmark coverage, design space enumeration, vendor extensibility, or lack of reproducible and extensible software for dataset construction. Many works also lack user-friendly ways to add more designs, limiting wider adoption of such datasets. In response to these challenges, we introduce HLSFactory, a comprehensive framework designed to facilitate the curation and generation of high-quality HLS design datasets. HLSFactory has three main stages: 1) a design space expansion stage to elaborate single HLS designs into large design spaces using various optimization directives across multiple vendor tools, 2) a design synthesis stage to execute HLS and FPGA tool flows concurrently across designs, and 3) a data aggregation stage for extracting standardized data into packaged datasets for ML usage. This tripartite architecture ensures broad design space coverage via design space expansion and supports multiple vendor tools. Users can contribute to each stage with their own HLS designs and synthesis results and extend the framework itself with custom frontends and tool flows. We also include an initial set of built-in designs from common HLS benchmarks curated open-source HLS designs. We showcase the versatility and multi-functionality of our framework through six case studies: I) Design space sampling; II) Fine-grained parallelism backend speedup; III) Targeting Intel's HLS flow; IV) Adding new auxiliary designs; V) Integrating published HLS data; VI) HLS tool version regression benchmarking. Code at https://github.com/sharc-lab/HLSFactory.
翻訳日:2024-05-03 20:32:52 公開日:2024-05-01
# Agendas: ソーシャルメディア上でのAgenda検出のためのフランス語と英語の新しいデータセット

Uncovering Agendas: A Novel French & English Dataset for Agenda Detection on Social Media ( http://arxiv.org/abs/2405.00821v1 )

ライセンス: Link先を確認
Gregorios Katsios, Ning Sa, Ankita Bhaumik, Tomek Strzalkowski, (参考訳) グループやコミュニティの行動や意思決定は、特定の議題、例えば、個人や活動の促進や分離、行動の呼びかけなどを推進する個人によって、劇的に影響を受けます。 オンライン・インフルエンス・キャンペーン(特に重要な政治的・社会的な出来事に関連するもの)の審査において、学者はしばしばアジェンダの設定と制御(例えば、メディア)に責任のある情報源を特定することに集中する。 本稿では,アノテーション付きデータが限定的あるいは存在しないソーシャルメディアを通じて,アジェンダ制御の特定の事例を検出する手法を提案する。 2022年のフランス大統領選挙を中心にしたTwitterメッセージの質素なコーパスを用いて、この問題に適用可能な様々なアプローチやテクニックを包括的に評価する。 この結果から,タスクをテキストエンテインメント問題として扱うことで,大規模な注釈付きトレーニングデータセットの要件を克服できることが示唆された。

The behavior and decision making of groups or communities can be dramatically influenced by individuals pushing particular agendas, e.g., to promote or disparage a person or an activity, to call for action, etc.. In the examination of online influence campaigns, particularly those related to important political and social events, scholars often concentrate on identifying the sources responsible for setting and controlling the agenda (e.g., public media). In this article we present a methodology for detecting specific instances of agenda control through social media where annotated data is limited or non-existent. By using a modest corpus of Twitter messages centered on the 2022 French Presidential Elections, we carry out a comprehensive evaluation of various approaches and techniques that can be applied to this problem. Our findings demonstrate that by treating the task as a textual entailment problem, it is possible to overcome the requirement for a large annotated training dataset.
翻訳日:2024-05-03 20:32:52 公開日:2024-05-01
# WorkBench: 現実的な職場環境におけるエージェントのベンチマークデータセット

WorkBench: a Benchmark Dataset for Agents in a Realistic Workplace Setting ( http://arxiv.org/abs/2405.00823v1 )

ライセンス: Link先を確認
Olly Styles, Sam Miller, Patricio Cerda-Mardini, Tanaya Guha, Victor Sanchez, Bertie Vidgen, (参考訳) 職場環境でタスクを実行するエージェントの能力を評価するベンチマークデータセットであるWorkBenchを紹介した。 WorkBenchにはサンドボックス環境があり、5つのデータベース、26のツール、690のタスクがある。 これらのタスクは、メールの送信や会議のスケジューリングなど、一般的なビジネス活動を表す。 WorkBenchのタスクは、計画、ツールの選択、そしてしばしば複数のアクションを必要とするため、難しい。 あるタスクがうまく実行された場合、データベースの値の1つ(またはそれ以上)が変更される可能性がある。 各タスクの正しい結果はユニークで曖昧で、堅牢で自動化された評価を可能にします。 私たちはこの重要な貢献を成果中心の評価と呼びます。 既存の5つのReActエージェントをWorkBench上で評価したところ、タスクの3%(Llama2-70B)が完了し、最高のパフォーマンス(GPT-4)は43%に過ぎなかった。 さらに、エージェントのエラーは、間違った人にメールが送られるなど、間違ったアクションをとられる可能性があることに気付きました。 WorkBenchは、エージェントが共通のビジネス活動を行う能力の弱点を明らかにする。 WorkBenchはhttps://github.com/olly-styles/WorkBench.comで無料リソースとして公開されている。

We introduce WorkBench: a benchmark dataset for evaluating agents' ability to execute tasks in a workplace setting. WorkBench contains a sandbox environment with five databases, 26 tools, and 690 tasks. These tasks represent common business activities, such as sending emails and scheduling meetings. The tasks in WorkBench are challenging as they require planning, tool selection, and often multiple actions. If a task has been successfully executed, one (or more) of the database values may change. The correct outcome for each task is unique and unambiguous, which allows for robust, automated evaluation. We call this key contribution outcome-centric evaluation. We evaluate five existing ReAct agents on WorkBench, finding they successfully complete as few as 3% of tasks (Llama2-70B), and just 43% for the best-performing (GPT-4). We further find that agents' errors can result in the wrong action being taken, such as an email being sent to the wrong person. WorkBench reveals weaknesses in agents' ability to undertake common business activities, raising questions about their use in high-stakes workplace settings. WorkBench is publicly available as a free resource at https://github.com/olly-styles/WorkBench.
翻訳日:2024-05-03 20:32:52 公開日:2024-05-01
# WIBA: 論じられているものは何か? 論証マイニングへの包括的アプローチ

WIBA: What Is Being Argued? A Comprehensive Approach to Argument Mining ( http://arxiv.org/abs/2405.00828v1 )

ライセンス: Link先を確認
Arman Irani, Ju Yeon Park, Kevin Esterling, Michalis Faloutsos, (参考訳) WIBA(WIBA)は,コンテキスト間での“What Is Being Argued”の包括的理解を可能にする,新しいフレームワークとメソッドスイートである。 私たちのアプローチでは,検出する包括的なフレームワークを開発しています。 a)存在, b)話題,及び (c) 3つの課題間の論理的依存を正しく考慮した議論の立場 提案アルゴリズムは,大規模言語モデルの微調整とプロンプトエンジニアリングを利用する。 当社のアプローチを評価し,これら3つの機能すべてで良好に機能していることを示します。 まず、3つの異なるベンチマークデータセットにおいて、F1スコアが79%から86%の引数としてテキスト片を分類できるArgument Detectionモデルを開発し、リリースする。 第二に、文の中で議論されているトピックを、暗黙的あるいは明示的に識別できる言語モデルをリリースし、平均的な類似度スコアは71%で、現在のナイーブな手法よりも40%近く優れています。 最後に,Argument Stance Classification の手法を開発し,提案手法の有効性を評価し,F1 の分類スコアを3つの多様なベンチマークデータセットで 71% から 78% の精度で達成することを示す。 我々の評価は、WIBAが、言語学、コミュニケーション、社会科学、コンピュータ科学における多くの応用において中心となる、様々な文脈における大規模なコーパスにおける「今あるもの」の包括的理解を可能にしていることを示す。 本研究で概説された進歩へのアクセシビリティーを容易にするため、WIBAを無料オープンアクセスプラットフォーム(wiba.dev)としてリリースする。

We propose WIBA, a novel framework and suite of methods that enable the comprehensive understanding of "What Is Being Argued" across contexts. Our approach develops a comprehensive framework that detects: (a) the existence, (b) the topic, and (c) the stance of an argument, correctly accounting for the logical dependence among the three tasks. Our algorithm leverages the fine-tuning and prompt-engineering of Large Language Models. We evaluate our approach and show that it performs well in all the three capabilities. First, we develop and release an Argument Detection model that can classify a piece of text as an argument with an F1 score between 79% and 86% on three different benchmark datasets. Second, we release a language model that can identify the topic being argued in a sentence, be it implicit or explicit, with an average similarity score of 71%, outperforming current naive methods by nearly 40%. Finally, we develop a method for Argument Stance Classification, and evaluate the capability of our approach, showing it achieves a classification F1 score between 71% and 78% across three diverse benchmark datasets. Our evaluation demonstrates that WIBA allows the comprehensive understanding of What Is Being Argued in large corpora across diverse contexts, which is of core interest to many applications in linguistics, communication, and social and computer science. To facilitate accessibility to the advancements outlined in this work, we release WIBA as a free open access platform (wiba.dev).
翻訳日:2024-05-03 20:32:52 公開日:2024-05-01
# 局所性正規化再建 : 構造的疎度とDlaunay三角測量

Locality Regularized Reconstruction: Structured Sparsity and Delaunay Triangulations ( http://arxiv.org/abs/2405.00837v1 )

ライセンス: Link先を確認
Marshall Mueller, James M. Murphy, Abiy Tasissa, (参考訳) 線形表現学習は、その概念的単純さと、圧縮、分類、特徴抽出といったタスクにおける経験的有用性から、広く研究されている。 一組の点 $[\mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_n] = \mathbf{X} \in \mathbb{R}^{d \times n}$ とベクトル $\mathbf{y} \in \mathbb{R}^d$ が与えられたとき、目標は係数 $\mathbf{w} \in \mathbb{R}^n$ を見つけることである。 この研究において、正規化された最小二乗回帰問題を解くことにより、$\mathbf{w}$ の局所的再構成を形成する $\mathbf{y}$ を求める。 正規化項として使われるとき、$\mathbf{X}$ の列が $\mathbf{y}$ に近いような局所関数を通して局所解を得る。 すべてのレベルの正規化と、$\mathbf{X}$ の列が独自のデラウネー三角形を持つという穏やかな条件の下では、最適係数の非零成分の数は$d+1$ で上界し、$d \ll n$ のとき局所スパース解を与える。 同じ条件の下では、$\mathbf{y}$ の凸包に含まれる任意の $\mathbf{y}$ に対して、$\mathbf{X}$ を含むデラウネー単純体の頂点上で最適係数が支持されるような正規化パラメータの規則が存在することも示している。 これは、空間性は、$\mathbf{X}$のデラウネー三角形から暗黙的に得られる構造である、という解釈を与える。 我々の局所性正規化問題は、デラウネーの単純度を含む他の方法と同等の時間で解決できることを実証する。

Linear representation learning is widely studied due to its conceptual simplicity and empirical utility in tasks such as compression, classification, and feature extraction. Given a set of points $[\mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_n] = \mathbf{X} \in \mathbb{R}^{d \times n}$ and a vector $\mathbf{y} \in \mathbb{R}^d$, the goal is to find coefficients $\mathbf{w} \in \mathbb{R}^n$ so that $\mathbf{X} \mathbf{w} \approx \mathbf{y}$, subject to some desired structure on $\mathbf{w}$. In this work we seek $\mathbf{w}$ that forms a local reconstruction of $\mathbf{y}$ by solving a regularized least squares regression problem. We obtain local solutions through a locality function that promotes the use of columns of $\mathbf{X}$ that are close to $\mathbf{y}$ when used as a regularization term. We prove that, for all levels of regularization and under a mild condition that the columns of $\mathbf{X}$ have a unique Delaunay triangulation, the optimal coefficients' number of non-zero entries is upper bounded by $d+1$, thereby providing local sparse solutions when $d \ll n$. Under the same condition we also show that for any $\mathbf{y}$ contained in the convex hull of $\mathbf{X}$ there exists a regime of regularization parameter such that the optimal coefficients are supported on the vertices of the Delaunay simplex containing $\mathbf{y}$. This provides an interpretation of the sparsity as having structure obtained implicitly from the Delaunay triangulation of $\mathbf{X}$. We demonstrate that our locality regularized problem can be solved in comparable time to other methods that identify the containing Delaunay simplex.
翻訳日:2024-05-03 20:32:52 公開日:2024-05-01
# 分散型マルチエージェント学習のためのコミュニケーション効率の良い訓練作業負荷分散

Communication-Efficient Training Workload Balancing for Decentralized Multi-Agent Learning ( http://arxiv.org/abs/2405.00839v1 )

ライセンス: Link先を確認
Seyed Mahmoud Sajjadi Mohammadabadi, Lei Yang, Feng Yan, Junshan Zhang, (参考訳) 分散マルチエージェント学習(DML)は、データのプライバシを保持しながら協調的なモデルトレーニングを可能にする。 しかしながら、エージェントのリソース(計算、通信、タスクサイズ)の固有の不均一性は、トレーニング時間にかなりの変化をもたらす可能性がある。 この異質性はボトルネックを生じさせ、ストラグラー効果による全体的なトレーニング時間を延長し、より高速なエージェントの余分なリソースを浪費する可能性がある。 異種環境におけるトレーニング時間を最小化するために,分散多エージェント学習のためのコミュニケーション効率の高いトレーニングワークロードバランス(ComDML)を提案する。 ローカルロス分割トレーニングを活用することで、ComDMLは並列更新を可能にし、遅いエージェントがワークロードの一部を高速エージェントにオフロードする。 全体的なトレーニング時間を最小化するために、ComDMLは、整数プログラミングに依存するエージェントの通信能力と計算能力を共同で考慮し、ワークロードの分散を最適化する。 動的分散ペアリングスケジューラを開発し,効率よくエージェントをペアリングし,最適なオフロード量を決定する。 我々は,ComDMLにおいて,凸関数および非凸関数に対して,遅いエージェントモデルと速いエージェントモデルの両方が収束することを証明した。 さらに、一般的なデータセット(CIFAR-10、CIFAR-100、CINIC-10)と、ResNet-56やResNet-110のような大規模なモデルを含む非I.D.の変種に関する広範な実験結果により、ComDMLは、最先端の手法と比較して、モデルの精度を維持しながら、全体的なトレーニング時間を著しく短縮できることを示した。 ComDMLは異種環境における堅牢性を示し、プライバシー対策はデータ保護を強化するためにシームレスに統合できる。

Decentralized Multi-agent Learning (DML) enables collaborative model training while preserving data privacy. However, inherent heterogeneity in agents' resources (computation, communication, and task size) may lead to substantial variations in training time. This heterogeneity creates a bottleneck, lengthening the overall training time due to straggler effects and potentially wasting spare resources of faster agents. To minimize training time in heterogeneous environments, we present a Communication-Efficient Training Workload Balancing for Decentralized Multi-Agent Learning (ComDML), which balances the workload among agents through a decentralized approach. Leveraging local-loss split training, ComDML enables parallel updates, where slower agents offload part of their workload to faster agents. To minimize the overall training time, ComDML optimizes the workload balancing by jointly considering the communication and computation capacities of agents, which hinges upon integer programming. A dynamic decentralized pairing scheduler is developed to efficiently pair agents and determine optimal offloading amounts. We prove that in ComDML, both slower and faster agents' models converge, for convex and non-convex functions. Furthermore, extensive experimental results on popular datasets (CIFAR-10, CIFAR-100, and CINIC-10) and their non-I.I.D. variants, with large models such as ResNet-56 and ResNet-110, demonstrate that ComDML can significantly reduce the overall training time while maintaining model accuracy, compared to state-of-the-art methods. ComDML demonstrates robustness in heterogeneous environments, and privacy measures can be seamlessly integrated for enhanced data protection.
翻訳日:2024-05-03 20:32:52 公開日:2024-05-01
# Sim-Grasp: 合成ベンチマークによるクラスタリング環境のための6-DOF Grasp ポリシの学習

Sim-Grasp: Learning 6-DOF Grasp Policies for Cluttered Environments Using a Synthetic Benchmark ( http://arxiv.org/abs/2405.00841v1 )

ライセンス: Link先を確認
Juncheng Li, David J. Cappelleri, (参考訳) そこで本稿では, オブジェクト操作の強化を目的とした高度な言語モデルを統合する, 頑健な6-DOF2指グリップシステムであるSim-Graspを提案する。 我々はSim-Grasp-Datasetを紹介し、500のシナリオに7.9百万のアノテートラベルを持つ1,550のオブジェクトを含み、ポイントクラウドから把握ポーズを生成するSim-GraspNetを開発した。 Sim-Grasp-Policesは1つのオブジェクトで97.14%、Levels 1-2とLevels 3-4の混合クラッタシナリオで87.43%、83.33%の達成率を達成した。 テキストとボックスプロンプトを通じてターゲット識別のための言語モデルを統合することで、Sim-Graspはオブジェクト非依存とターゲットピッキングの両方を可能にし、インテリジェントなロボットシステムのバウンダリを押し上げる。

In this paper, we present Sim-Grasp, a robust 6-DOF two-finger grasping system that integrates advanced language models for enhanced object manipulation in cluttered environments. We introduce the Sim-Grasp-Dataset, which includes 1,550 objects across 500 scenarios with 7.9 million annotated labels, and develop Sim-GraspNet to generate grasp poses from point clouds. The Sim-Grasp-Polices achieve grasping success rates of 97.14% for single objects and 87.43% and 83.33% for mixed clutter scenarios of Levels 1-2 and Levels 3-4 objects, respectively. By incorporating language models for target identification through text and box prompts, Sim-Grasp enables both object-agnostic and target picking, pushing the boundaries of intelligent robotic systems.
翻訳日:2024-05-03 20:32:52 公開日:2024-05-01
# 混乱した変化による急激な変化検出

Quickest Change Detection with Confusing Change ( http://arxiv.org/abs/2405.00842v1 )

ライセンス: Link先を確認
Yu-Zhen Janice Chen, Jinhang Zuo, Venugopal V. Veeravalli, Don Towsley, (参考訳) 最も急激な変化検出(QCD)問題では、独立な観測系列の分布において、ある未知の時間に変化が発生する。 この研究は、変化が悪い変化であるか、私たちが検出しようとしているか、あるいは混乱した変化である、というQCDの問題を研究します。 我々の目標は、事前変更や紛らわしい変更の誤報を発生させないで、可能な限り迅速に悪い変化を検出することです。 標準的なCuSum(Cumulative Sum)プロシージャの能力を超えた課題を提起する、事前変更、悪い変更、混乱した変更分布の特定のセットを特定します。 2つのCuSum統計を利用して、新しいCuSumベースの検出手順、S-CuSumとJ-CuSumを提案する。 S-CuSum と J-CuSum は解析的性能保証を提供し,数値計算により検証する。 さらに、どちらの手順も単純な再帰的更新だけを必要とするため、計算的に効率的である。

In the problem of quickest change detection (QCD), a change occurs at some unknown time in the distribution of a sequence of independent observations. This work studies a QCD problem where the change is either a bad change, which we aim to detect, or a confusing change, which is not of our interest. Our objective is to detect a bad change as quickly as possible while avoiding raising a false alarm for pre-change or a confusing change. We identify a specific set of pre-change, bad change, and confusing change distributions that pose challenges beyond the capabilities of standard Cumulative Sum (CuSum) procedures. Proposing novel CuSum-based detection procedures, S-CuSum and J-CuSum, leveraging two CuSum statistics, we offer solutions applicable across all kinds of pre-change, bad change, and confusing change distributions. For both S-CuSum and J-CuSum, we provide analytical performance guarantees and validate them by numerical results. Furthermore, both procedures are computationally efficient as they only require simple recursive updates.
翻訳日:2024-05-03 20:32:52 公開日:2024-05-01
# 幻覚モデルがヒトの「幻覚」の軽減に役立つか?

Can a Hallucinating Model help in Reducing Human "Hallucination"? ( http://arxiv.org/abs/2405.00843v1 )

ライセンス: Link先を確認
Sowmya S Sundaram, Balaji Alwar, (参考訳) 疑似科学、論理的誤信、陰謀論にまたがる無秩序な信念の流行は、社会的なハードルと誤報を広めるリスクを生じさせる。 本研究は、確立された心理測定評価を利用して、一般的な論理的落とし穴を検出する上で、平均的な人間に対する大きな言語モデル(LLM)の能力について検討する。 人類の合理性を LLM の合理性と比較し, 哲学的な考察を行った。 さらに,認知的不協和理論や共振可能性理論といった説得の心理的モデルに基づいて,LLMを誤認識に対処するための手法を提案する。 この取り組みを通じて、パーソナライズされた誤情報伝達剤としてのLSMの可能性を強調した。

The prevalence of unwarranted beliefs, spanning pseudoscience, logical fallacies, and conspiracy theories, presents substantial societal hurdles and the risk of disseminating misinformation. Utilizing established psychometric assessments, this study explores the capabilities of large language models (LLMs) vis-a-vis the average human in detecting prevalent logical pitfalls. We undertake a philosophical inquiry, juxtaposing the rationality of humans against that of LLMs. Furthermore, we propose methodologies for harnessing LLMs to counter misconceptions, drawing upon psychological models of persuasion such as cognitive dissonance theory and elaboration likelihood theory. Through this endeavor, we highlight the potential of LLMs as personalized misinformation debunking agents.
翻訳日:2024-05-03 18:33:31 公開日:2024-05-01
# IoT-Fog環境における信頼と統合のためのブロックチェーンに基づく監査機構

A Blockchain-Based Audit Mechanism for Trust and Integrity in IoT-Fog Environments ( http://arxiv.org/abs/2405.00844v1 )

ライセンス: Link先を確認
Ismael Martinez, Abdelhakim Senhaji Hafid, Michel Gendreau, (参考訳) スマートシティ技術の完全な実現は、IoTアプリケーションとエッジコンピューティングのセキュアで誠実なコラボレーションに依存している。 特に、リソースに制約のあるIoTデバイスは、IoTタスクのコンピューティング負荷を軽減するためにフォグコンピューティングに依存する可能性がある。 IoTデータセキュリティを保護するためにIoTとフォグ間の相互認証が必要であり、フォグサービスエコシステムを促進するためにフォグサービスの収益化が必要である。 しかしながら、フォグノードが意図的または誤って、常にIoT要求に正しく応答する保証はない。 パブリックな分散IoT-fog環境では、フォグノード間の整合性を強制することが不可欠である。 本稿ではブロックチェーンベースのシステムを提案する。 1)IoTとフォグの相互認証サービスの収益化を合理化する。 2【サービス監査による霧ノードの完全性確認】 3) 悪質な行為を阻止し, インセンティブや罰則を通じて霧ノード間の誠実さを促進する。

The full realization of smart city technology is dependent on the secure and honest collaboration between IoT applications and edge-computing. In particular, resource constrained IoT devices may rely on fog-computing to alleviate the computing load of IoT tasks. Mutual authentication is needed between IoT and fog to preserve IoT data security, and monetization of fog services is needed to promote the fog service ecosystem. However, there is no guarantee that fog nodes will always respond to IoT requests correctly, either intentionally or accidentally. In the public decentralized IoT-fog environment, it is crucial to enforce integrity among fog nodes. In this paper, we propose a blockchain-based system that 1) streamlines the mutual authentication service monetization between IoT and fog, 2) verifies the integrity of fog nodes via service audits, and 3) discourages malicious activity and promotes honesty among fog nodes through incentives and penalties.
翻訳日:2024-05-03 18:33:31 公開日:2024-05-01
# 対戦型イマジネーションを歩き回る安全なロボット「Gameplay Filters」

Gameplay Filters: Safe Robot Walking through Adversarial Imagination ( http://arxiv.org/abs/2405.00846v1 )

ライセンス: Link先を確認
Duy P. Nguyen, Kai-Chieh Hsu, Wenhao Yu, Jie Tan, Jaime F. Fisac, (参考訳) 脚付きロボットが不確実で新しい環境で安全に運用されることは、その普及に不可欠である。 近年の安全フィルタの進歩により、任意のタスク駆動型ポリシーが安全上の障害を引き起こすのを防ぐことができるが、脚のあるロボットの移動のための既存のソリューションは、まだ単純化されたダイナミクスに依存しており、ロボットが予め定義された安定した歩行から遠ざかっているときに失敗する可能性がある。 本稿では,オフラインゲーム理論の強化学習を活用し,高次非線形力学のための高堅牢な安全フィルタを合成する一般手法を提案する。 このゲームプレイフィルタは、敵の未来を継続的にシミュレートし、将来のゲームを失う(したがって安全を損なう)ようなタスク駆動アクションを先取りすることにより、実行時の安全性を維持する。 ゲームプレイ安全フィルタは、36次元の四足歩行タスクで検証され、手動のチューニングやヒューリスティックなデザインなしで、シム・トゥ・リアルギャップに固有の堅牢性を示す。 物理実験は、タグ付けや不規則な地形などの摂動下でのゲームプレイ安全フィルタの有効性を実証し、シミュレーション研究は、安全性を損なうことなく計算と保守性をトレードオフする方法に光を当てた。

Ensuring the safe operation of legged robots in uncertain, novel environments is crucial to their widespread adoption. Despite recent advances in safety filters that can keep arbitrary task-driven policies from incurring safety failures, existing solutions for legged robot locomotion still rely on simplified dynamics and may fail when the robot is perturbed away from predefined stable gaits. This paper presents a general approach that leverages offline game-theoretic reinforcement learning to synthesize a highly robust safety filter for high-order nonlinear dynamics. This gameplay filter then maintains runtime safety by continually simulating adversarial futures and precluding task-driven actions that would cause it to lose future games (and thereby violate safety). Validated on a 36-dimensional quadruped robot locomotion task, the gameplay safety filter exhibits inherent robustness to the sim-to-real gap without manual tuning or heuristic designs. Physical experiments demonstrate the effectiveness of the gameplay safety filter under perturbations, such as tugging and unmodeled irregular terrains, while simulation studies shed light on how to trade off computation and conservativeness without compromising safety.
翻訳日:2024-05-03 18:33:31 公開日:2024-05-01
# 量子誤差補正を用いた蒸留用エンタングルメントルーティング

Entanglement Routing using Quantum Error Correction for Distillation ( http://arxiv.org/abs/2405.00849v1 )

ライセンス: Link先を確認
Ashlesha Patil, Michele Pacenti, Bane Vasić, Saikat Guha, Narayanan Rengaswamy, (参考訳) 量子リピータ間で共有される絡み合い状態のベル状態測定(BSM)は、量子ネットワークにおける絡み合いをルーティングする基本的な操作である。 リピータ間で共有されるヴェルナー状態上でのBSMの実行は、リピータの数で終端ヴェルナー状態の忠実度が指数関数的に低下し、エンタングルメント蒸留を必要とする。 一般に、絡み合ったルーティングプロトコルは、局所的な操作と古典的な通信に基づく 'emph{probabilistic} 蒸留技術を使用する。 本研究では, 量子誤り訂正符号 (QECCs) を用いて, 繰り返し器の列上でワーナー状態の経路を導出する。 エンドツーエンドのベル対の数と忠実度に依存するエンドツーエンドの蒸留可能な絡み合いを最大化するために,グローバルリンク状態の知識を用いて,リピータにおける蒸留とBSMのスケジューリングの最適方針を決定する。 本稿では,QECC特性が量子メモリの絡み合い率と量子メモリ数に与える影響を解析する。 低レート符号は、その優れた誤り訂正能力により高忠実度なエンドツーエンド状態を生成するのに対し、高レート符号はより多くのエンドツーエンド状態を生成するが、低忠実度である。 リピータで使用される量子メモリの数は、QECCデコーダの古典的な計算時間とともにコードレートとともに増加する。

Bell-state measurement (BSM) on entangled states shared between quantum repeaters is the fundamental operation used to route entanglement in quantum networks. Performing BSMs on Werner states shared between repeaters leads to exponential decay in the fidelity of the end-to-end Werner state with the number of repeaters, necessitating entanglement distillation. Generally, entanglement routing protocols use \emph{probabilistic} distillation techniques based on local operations and classical communication. In this work, we use quantum error correcting codes (QECCs) for \emph{deterministic} entanglement distillation to route Werner states on a chain of repeaters. To maximize the end-to-end distillable entanglement, which depends on the number and fidelity of end-to-end Bell pairs, we utilize global link-state knowledge to determine the optimal policy for scheduling distillation and BSMs at the repeaters. We analyze the effect of the QECC's properties on the entanglement rate and the number of quantum memories. We observe that low-rate codes produce high-fidelity end-to-end states owing to their excellent error-correcting capability, whereas high-rate codes yield a larger number of end-to-end states but of lower fidelity. The number of quantum memories used at repeaters increases with the code rate as well as the classical computation time of the QECC's decoder.
翻訳日:2024-05-03 18:33:31 公開日:2024-05-01
# グラフにおける単音素半空間学習のための効率的なアルゴリズム

Efficient Algorithms for Learning Monophonic Halfspaces in Graphs ( http://arxiv.org/abs/2405.00853v1 )

ライセンス: Link先を確認
Marco Bressan, Emmanuel Esposito, Maximilian Thiessen, (参考訳) グラフの頂点上で二項分類器を学習する問題について検討する。 特に、ある抽象的な意味で凸である頂点の分割である単音素半空間によって与えられる分類子を考える。 単音素半空間や測地的半空間のような関連する概念は、最近関心を集め、それらの性質(例えば、VC次元)と基礎となるグラフの$G$の構造の間にいくつかの接続が引かれた。 我々は、教師付き、オンライン、アクティブな設定において、モノフォニックなハーフスペースを学習するためのいくつかの新しい結果を証明した。 我々の主な結果は、n = |V(G)|$ の時間多項式において、単音素半空間は、ほぼ最適のパッシブサンプル複雑性で学習できるということである。 これにより、単調な半空間に関するいくつかの構造的洞察に基づいて、一貫した仮説チェックのための多項式時間アルゴリズムを考案し、満足度を2ドルに下げる必要がある。 オンラインおよびアクティブな設定でも同様の結果が得られます。 また、概念クラスは遅延$\operatorname{poly}(n)$で列挙でき、経験的リスク最小化は2.^{\omega(G)}\operatorname{poly}(n)$で、$\omega(G)$は$G$の斜め数であることを示す。 これらの結果は、文献(Gonz\'alez et al , 2020)からのオープンな質問に答え、これらの問題のいくつかがNPハードである測地空間との対比を示す(Seiffarth et al , 2023)。

We study the problem of learning a binary classifier on the vertices of a graph. In particular, we consider classifiers given by monophonic halfspaces, partitions of the vertices that are convex in a certain abstract sense. Monophonic halfspaces, and related notions such as geodesic halfspaces,have recently attracted interest, and several connections have been drawn between their properties(e.g., their VC dimension) and the structure of the underlying graph $G$. We prove several novel results for learning monophonic halfspaces in the supervised, online, and active settings. Our main result is that a monophonic halfspace can be learned with near-optimal passive sample complexity in time polynomial in $n = |V(G)|$. This requires us to devise a polynomial-time algorithm for consistent hypothesis checking, based on several structural insights on monophonic halfspaces and on a reduction to $2$-satisfiability. We prove similar results for the online and active settings. We also show that the concept class can be enumerated with delay $\operatorname{poly}(n)$, and that empirical risk minimization can be performed in time $2^{\omega(G)}\operatorname{poly}(n)$ where $\omega(G)$ is the clique number of $G$. These results answer open questions from the literature (Gonz\'alez et al., 2020), and show a contrast with geodesic halfspaces, for which some of the said problems are NP-hard (Seiffarth et al., 2023).
翻訳日:2024-05-03 18:33:31 公開日:2024-05-01
# Brighteye:視覚変換器を用いたカラーファウンダス撮影による緑内障検診

Brighteye: Glaucoma Screening with Color Fundus Photographs based on Vision Transformer ( http://arxiv.org/abs/2405.00857v1 )

ライセンス: Link先を確認
Hui Lin, Charilaos Apostolidis, Aggelos K. Katsaggelos, (参考訳) 画像品質、照明条件、および患者の人口動態の違いは、カラーファンドス写真からの緑内障の自動検出に困難をもたらす。 緑内障の検出と緑内障の特徴分類のために,視覚変換器に基づくBrighteye法が提案されている。 ブライトアイは、自己認識機構を用いて、大きな眼底画像内の画素間の長距離関係を学習する。 ブライトアイに入力される前に、光学ディスクはYOLOv8を用いて局在し、ディスクセンター周辺の関心領域(ROI)は、臨床実践と整合性を確保するために収穫される。 光ディスク検出は、緑内障検出の感度を79.20%から85.70%に、緑内障特徴分類のハミング距離を0.2470から0.1250に改善する。 AI 緑内障スクリーニング (JustRAIGS) における Justified Referral の開発段階において、全体的な結果により、226 項目のうち5位が確保された。

Differences in image quality, lighting conditions, and patient demographics pose challenges to automated glaucoma detection from color fundus photography. Brighteye, a method based on Vision Transformer, is proposed for glaucoma detection and glaucomatous feature classification. Brighteye learns long-range relationships among pixels within large fundus images using a self-attention mechanism. Prior to being input into Brighteye, the optic disc is localized using YOLOv8, and the region of interest (ROI) around the disc center is cropped to ensure alignment with clinical practice. Optic disc detection improves the sensitivity at 95% specificity from 79.20% to 85.70% for glaucoma detection and the Hamming distance from 0.2470 to 0.1250 for glaucomatous feature classification. In the developmental stage of the Justified Referral in AI Glaucoma Screening (JustRAIGS) challenge, the overall outcome secured the fifth position out of 226 entries.
翻訳日:2024-05-03 18:33:31 公開日:2024-05-01
# 糖尿病性足部潰瘍の感染予測のためのガイドライン付き条件拡散分類器(ConDiff)

Guided Conditional Diffusion Classifier (ConDiff) for Enhanced Prediction of Infection in Diabetic Foot Ulcers ( http://arxiv.org/abs/2405.00858v1 )

ライセンス: Link先を確認
Palawat Busaranuvong, Emmanuel Agu, Deepak Kumar, Shefalika Gautam, Reza Saadati Fard, Bengisu Tulu, Diane Strong, (参考訳) 糖尿病足部潰瘍(DFU)の病変を写真から検出し、重篤な合併症や切断を防止する。 方法:本論文では,ガイド付き画像合成と難読化拡散モデルと距離ベース分類を組み合わせた新しい深層学習感染検出モデルであるガイド付き条件拡散分類器(ConDiff)を提案する。 本発明の工程は、(1)誘導画像にガウスノイズを注入して誘導条件付き合成画像を生成し、次いで、逆拡散過程によりノイズ摂動画像を除音し、(2)合成画像と元のガイド画像との最小ユークリッド距離に基づいて感染を分類する。 結果:ConDiffは83%,F1スコア0.858の精度で優れた性能を示した。 三重項損失関数の使用は、距離ベース分類器の過度な適合を減少させる。 結論: ConDiffはDFU感染症の診断精度を高めるだけでなく、詳細な医療画像解析に生成的差別モデルを使用することも先駆的であり、患者の結果を改善するための有望なアプローチを提供する。

To detect infected wounds in Diabetic Foot Ulcers (DFUs) from photographs, preventing severe complications and amputations. Methods: This paper proposes the Guided Conditional Diffusion Classifier (ConDiff), a novel deep-learning infection detection model that combines guided image synthesis with a denoising diffusion model and distance-based classification. The process involves (1) generating guided conditional synthetic images by injecting Gaussian noise to a guide image, followed by denoising the noise-perturbed image through a reverse diffusion process, conditioned on infection status and (2) classifying infections based on the minimum Euclidean distance between synthesized images and the original guide image in embedding space. Results: ConDiff demonstrated superior performance with an accuracy of 83% and an F1-score of 0.858, outperforming state-of-the-art models by at least 3%. The use of a triplet loss function reduces overfitting in the distance-based classifier. Conclusions: ConDiff not only enhances diagnostic accuracy for DFU infections but also pioneers the use of generative discriminative models for detailed medical image analysis, offering a promising approach for improving patient outcomes.
翻訳日:2024-05-03 18:33:31 公開日:2024-05-01
# AI危機の時代におけるパブリックコンピューティングの知性

Public Computing Intellectuals in the Age of AI Crisis ( http://arxiv.org/abs/2405.00860v1 )

ライセンス: Link先を確認
Randy Connolly, (参考訳) AI技術が一般的な社会危機を引き起こしているという信念は、2023年に人気になった。 興味深いことに、これらの懸念のいくつかはITセクター自体からの声が上がっている。 これらのアカウントの一部に誇張と誇張の要素は間違いなくあったが、この技術スタックには厄介な影響があるという事実を反映している。 機械学習とデータサイエンスの現在の発展によって引き継がれた社会的、政治的、個人的未来に関する共通の関心が組み合わさって、コンピューティングの学術的規律が自己評価と再設定の機会となる。 この位置紙は4つのセクションで行うための努力である。 第一に、コンピューティングにおけるAI危機の性質を拡大する。 第2部は、この危機に対する潜在的な批判的な反応を明記し、権力関係に対するより広範な分析的焦点を提唱している。 第3部では、学問計算の認識学分野の新たな特徴を提示し、その分野の通常の道具的知識だけでなく、反射的知識も含んでいる。 この反射的次元は、この分野の批判的機能と公的な機能の両方を同等の知的パートナーとして統合し、現代の学術分野の必要な構成要素である。 最終節では、概念的アーキタイプ、すなわち、公立コンピュータ知能(Public Computer Intellectual)を、我々の分野における学術的実践の可能性を実質的に想像する方法として提唱する。 コンピュータ教育研究コミュニティはこの点において重要な役割を担っていると論じる。

The belief that AI technology is on the cusp of causing a generalized social crisis became a popular one in 2023. Interestingly, some of these worries were voiced from within the tech sector itself. While there was no doubt an element of hype and exaggeration to some of these accounts, they do reflect the fact that there are troubling ramifications to this technology stack. This conjunction of shared concerns about social, political, and personal futures presaged by current developments in machine learning and data science presents the academic discipline of computing with a rare opportunity for self-examination and reconfiguration. This position paper endeavors to do so in four sections. The first expands on the nature of the AI crisis for computing. The second articulates possible critical responses to this crisis and advocates for a broader analytic focus on power relations. The third section presents a novel characterization of academic computing's epistemological field, one which includes not only the discipline's usual instrumental forms of knowledge but reflexive knowledge as well. This reflexive dimension integrates both the critical and public functions of the discipline as equal intellectual partners and a necessary component of any contemporary academic field. The final section will advocate for a conceptual archetype--the Public Computer Intellectual--as a way of practically imagining the expanded possibilities of academic practice in our discipline, one that provides both self-critique and an outward-facing orientation towards the public good. It will argue that the computer education research community can play a vital role in this regard.
翻訳日:2024-05-03 18:33:31 公開日:2024-05-01
# 組合せ最適化のための量子ディバイドとコンカアルゴリズムのスケールアップ

Scaling Up the Quantum Divide and Conquer Algorithm for Combinatorial Optimization ( http://arxiv.org/abs/2405.00861v1 )

ライセンス: Link先を確認
Ibrahim Cameron, Teague Tomesh, Zain Saleem, Ilya Safro, (参考訳) フィールドとしての量子最適化は、主に現在の量子コンピューティングハードウェアの制約によって制限されており、サイズ、性能、忠実性の制限は、ほとんどの非自明な問題インスタンスが量子デバイスに適合しないことを意味する。 分散量子コンピューティングシステムのような提案されたソリューションでさえ、デバイス間通信のコストが高いため、スケールを達成するのに苦労する可能性がある。 これらの問題に対処するため,いくつかの量子グラフ最適化アルゴリズムにおいてデバイス間通信コストを大幅に削減する量子回路構築法であるDeferred Constraint Quantum Divide and Conquer Algorithm (DC-QDCA)を提案する。 これは、分離器と呼ばれる入力グラフを分割する頂点の集合を同定し、分離器内の頂点に関連する制約の配置を操作することにより、最適化回路の位相を大幅に単純化し、必要なデバイス間操作数を削減できる。 さらに,これらの手法に基づく反復アルゴリズムを導入し,潜在的に数千の変数を持つ問題に対する解を求める。 量子シミュレータを用いた実験結果から,従来のQDCA手法の約3倍の大きさのトラクタブル回路を構築できることがわかった。

Quantum optimization as a field has largely been restricted by the constraints of current quantum computing hardware, as limitations on size, performance, and fidelity mean most non-trivial problem instances won't fit on quantum devices. Even proposed solutions such as distributed quantum computing systems may struggle to achieve scale due to the high cost of inter-device communication. To address these concerns, we propose Deferred Constraint Quantum Divide and Conquer Algorithm (DC-QDCA), a method for constructing quantum circuits which greatly reduces inter-device communication costs for some quantum graph optimization algorithms. This is achieved by identifying a set of vertices whose removal partitions the input graph, known as a separator; by manipulating the placement of constraints associated with the vertices in the separator, we can greatly simplify the topology of the optimization circuit, reducing the number of required inter-device operations. Furthermore, we introduce an iterative algorithm which builds on these techniques to find solutions for problems with potentially thousands of variables. Our experimental results using quantum simulators have shown that we can construct tractable circuits nearly three times the size of previous QDCA methods while retaining a similar or greater level of quality.
翻訳日:2024-05-03 18:33:31 公開日:2024-05-01
# SHARE:量子システムにおけるセキュアなハードウェア配置と資源効率

SHARE: Secure Hardware Allocation and Resource Efficiency in Quantum Systems ( http://arxiv.org/abs/2405.00863v1 )

ライセンス: Link先を確認
Suryansh Upadhyay, Swaroop Ghosh, (参考訳) 量子コンピューティング(QC)は、様々な分野の問題解決に革命をもたらす可能性があり、50量子ビットを超えるシステムが特定の最適化タスクにおいてスーパーコンピュータを上回る量子優位性を達成する可能性があることを示唆している。 NISQ(Noisy Intermediate Scale Quantum)コンピュータのハードウェアサイズが拡大するにつれて、マルチテナントコンピューティング(MTC)は、複数の量子プログラム間で共有リソースアクセスを可能にすることにより、ハードウェア利用を向上させるための実行可能なアプローチとして現れてきた。 しかし、MSCは課題やセキュリティ上の懸念ももたらします。 本稿では、ハードウェア利用を向上するだけでなく、クロストークやフォールトインジェクションといった関連するリスクを効果的に管理するマルチプログラミング戦略を実装することで、共有環境での量子ハードウェア利用を最適化することに焦点を当てる。 本稿では,Community Based Dynamic Allocation Partitioning (COMDAP) とSecure COMDAPという新しいパーティショニング・アロケーション手法を提案する。 COMDAPは、公平かつ効率的なリソース分配を保証し、最適下分割の問題に対処し、ハードウェア利用を著しく改善する。 これまでの強欲なヒューリスティックスと比較すると、ハードウェア利用率の平均は23%改善しており、平均は92%である。 COMDAPは、ベンチマーク全体のPSTの3.5パーセントの削減とともに、デルタCXの約0.05倍の平均的な増加を導入している。

Quantum computing (QC) is poised to revolutionize problem solving across various fields, with research suggesting that systems with over 50 qubits may achieve quantum advantage surpassing supercomputers in certain optimization tasks. As the hardware size of Noisy Intermediate Scale Quantum (NISQ) computers continues to grow, Multi tenant computing (MTC) has emerged as a viable approach to enhance hardware utilization by allowing shared resource access across multiple quantum programs. However, MTC can also bring challenges and security concerns. This paper focuses on optimizing quantum hardware utilization in shared environments by implementing multi programming strategies that not only enhance hardware utilization but also effectively manage associated risks like crosstalk and fault injection. We propose a novel partitioning and allocation method called Community Based Dynamic Allocation Partitioning (COMDAP) and Secure COMDAP to refine and secure multi programming capabilities in quantum systems. COMDAP ensures equitable and efficient resource distribution, addresses the issues of suboptimal partitioning, and significantly improves hardware utilization. We report a 23 percent average improvement in hardware utilization rate compared to existing greedy heuristics, with rates averaging 92 percent. COMDAP introduces an average increase of approximately 0.05X in delta CX, alongside a 3.5 percent average reduction in PST across benchmarks.
翻訳日:2024-05-03 18:33:31 公開日:2024-05-01
# ヒューマンラージ言語モデルによる複数問合せ生成

Math Multiple Choice Question Generation via Human-Large Language Model Collaboration ( http://arxiv.org/abs/2405.00864v1 )

ライセンス: Link先を確認
Jaewook Lee, Digory Smith, Simon Woodhead, Andrew Lan, (参考訳) 複数選択質問 (MCQ) は, 管理や成績評価の効率化により, 生徒の知識を評価できる一般的な方法である。 高品質な数学のMCQの作成は、教育者が正確な茎ともっともらしい散逸を定式化する必要がある労働集約的なプロセスである。 大規模言語モデル(LLM)の最近の進歩はMCQ生成の自動化への関心を喚起しているが、数学的精度の確保と生徒の誤りへの対処には課題が続いている。 本稿では,数学MCQ生成プロセスの合理化を目的としたLLMと教育者間の協調を支援するためのプロトタイプツールを提案する。 本研究では,高品質な数学MCQの作成プロセスの簡略化を支援するために,数学教育者を含むパイロットスタディを実施している。 その結果, LLM は質問ステムを生成することができるが, 学生の誤りや誤認識を捉えた気晴らしを生成できる能力は限られていることが判明した。 それでも、人間とAIのコラボレーションは、MCQ生成の効率性と有効性を高める可能性がある。

Multiple choice questions (MCQs) are a popular method for evaluating students' knowledge due to their efficiency in administration and grading. Crafting high-quality math MCQs is a labor-intensive process that requires educators to formulate precise stems and plausible distractors. Recent advances in large language models (LLMs) have sparked interest in automating MCQ creation, but challenges persist in ensuring mathematical accuracy and addressing student errors. This paper introduces a prototype tool designed to facilitate collaboration between LLMs and educators for streamlining the math MCQ generation process. We conduct a pilot study involving math educators to investigate how the tool can help them simplify the process of crafting high-quality math MCQs. We found that while LLMs can generate well-formulated question stems, their ability to generate distractors that capture common student errors and misconceptions is limited. Nevertheless, a human-AI collaboration has the potential to enhance the efficiency and effectiveness of MCQ generation.
翻訳日:2024-05-03 18:33:31 公開日:2024-05-01
# PDFステガノグラフィーを用いた感性情報提示

Hiding Sensitive Information Using PDF Steganography ( http://arxiv.org/abs/2405.00865v1 )

ライセンス: Link先を確認
Ryan Klemm, Bo Chen, (参考訳) 機密データを送信するためのステガノグラフィーの利用は、今日ではセキュリティ製品やマルウェアでますます一般的になっている。 PDFファイルは非常に人気があるにもかかわらず、ほとんどのアプリケーションはそのカバーデータとしてデジタル画像、オーディオ、ビデオファイルを使用するため、ステガノグラフィー研究の焦点にはならないことが多い。 しかし、PDFファイルフォーマットは、中容量ステガノグラフィーアプリケーションでの使用を約束している。 本稿では,PDFストリーム演算子の実数値オペランドへの最小ビット挿入に基づく新しいPDFステガノグラフィーアルゴリズムを提案する。 これまでの研究では,これらの演算子の小さな部分集合しか考慮されていないが,Adobe PDF標準で定義されているすべての演算子を概観し,その使用性を評価する。 また,特定のカバーPDF文書にマルウェアを埋め込むケーススタディも提供する。

The use of steganography to transmit secret data is becoming increasingly common in security products and malware today. Despite being extremely popular, PDF files are not often the focus of steganography research, as most applications utilize digital image, audio, and video files as their cover data. However, the PDF file format is promising for usage in medium-capacity steganography applications. In this paper, we present a novel PDF steganography algorithm based upon least-significant bit insertion into the real-valued operands of PDF stream operators. Where prior research has only considered a small subset of these operators, we take an extensive look at all the possible operators defined in the Adobe PDF standard to evaluate their usability in our steganography algorithm. We also provide a case study which embeds malware into a given cover PDF document.
翻訳日:2024-05-03 18:33:31 公開日:2024-05-01
# 安定非線形システムの性能向上のための学習

Learning to Boost the Performance of Stable Nonlinear Systems ( http://arxiv.org/abs/2405.00871v1 )

ライセンス: Link先を確認
Luca Furieri, Clara Lucía Galimberti, Giancarlo Ferrari-Trecate, (参考訳) 安全クリティカルな制御システムの規模と複雑さの増大は、最先端の最適化と機械学習アルゴリズムによって達成可能な、非並列なパフォーマンスを目指して、現在の制御アーキテクチャを進化させる必要性を浮き彫りにしている。 しかし、データ駆動型およびディープラーニングアプローチを用いた非線形制御システムの性能を向上しつつ、閉ループ安定性を維持することは重要な未解決課題である。 本稿では,閉ループ安定性保証による性能ブースティング問題に対処する。 具体的には、非線形系の内部モデル制御(IMC)原理と、安定な力学を学習するための最先端の非制約最適化手法の相乗効果を確立する。 本手法は, 安定非線形システムに対する性能ブースティング制御器の任意の深層ニューラルネットワーククラス上での学習を可能にし, 最適化が早期に停止してもLp閉ループ安定性を保証し, 基礎構造が不明な場合でも, モデル不確実性がゼロとなるにつれて, 安定化ポリシーのクラスにおける保守性は消滅する。 いくつかの数値実験によりコスト関数を自由に形成する可能性を示すため、分散制御を含む制御方式の実装の詳細と、対応する最適化手順について論じる。

The growing scale and complexity of safety-critical control systems underscore the need to evolve current control architectures aiming for the unparalleled performances achievable through state-of-the-art optimization and machine learning algorithms. However, maintaining closed-loop stability while boosting the performance of nonlinear control systems using data-driven and deep-learning approaches stands as an important unsolved challenge. In this paper, we tackle the performance-boosting problem with closed-loop stability guarantees. Specifically, we establish a synergy between the Internal Model Control (IMC) principle for nonlinear systems and state-of-the-art unconstrained optimization approaches for learning stable dynamics. Our methods enable learning over arbitrarily deep neural network classes of performance-boosting controllers for stable nonlinear systems; crucially, we guarantee Lp closed-loop stability even if optimization is halted prematurely, and even when the ground-truth dynamics are unknown, with vanishing conservatism in the class of stabilizing policies as the model uncertainty is reduced to zero. We discuss the implementation details of the proposed control schemes, including distributed ones, along with the corresponding optimization procedures, demonstrating the potential of freely shaping the cost functions through several numerical experiments.
翻訳日:2024-05-03 18:33:31 公開日:2024-05-01
# 2次元超伝導量子ビットアレイにおける合成磁気ベクトルポテンシャルの実装

Implementing a synthetic magnetic vector potential in a 2D superconducting qubit array ( http://arxiv.org/abs/2405.00873v1 )

ライセンス: Link先を確認
Ilan T. Rosen, Sarah Muschinske, Cora N. Barrett, Arkya Chatterjee, Max Hays, Michael DeMarco, Amir Karamlou, David Rower, Rabindra Das, David K. Kim, Bethany M. Niedzielski, Meghan Schuldt, Kyle Serniak, Mollie E. Schwartz, Jonilyn L. Yoder, Jeffrey A. Grover, William D. Oliver, (参考訳) 超伝導量子プロセッサは、ハードウェア固有の精度制御、高速動作、サイトの解決された読み出しにより、アナログ量子シミュレーションの魅力的なプラットフォームである。 結合した超伝導量子ビットの配列は、Bose-Hubbardモデルに従って相互作用する粒子の力学を自然にエミュレートする。 しかし、多くの興味深い凝縮マター現象は電磁場の存在によってのみ現れる。 ここでは超伝導量子シミュレータを用いて電磁場における荷電粒子の動力学をエミュレートする。 すべての量子ビットに連続変調音を印加することにより、広範に調整可能な合成磁気ベクトルポテンシャルを実現する。 空間変化ベクトルポテンシャルは時間反転対称性を破り、ゲージ不変の合成磁場を生成し、時間変化ベクトルポテンシャルは合成電場を生成する。 電界中を伝播する荷電粒子の逆偏向であるホール効果が, 合成電磁場の存在下では存在することを実証する。

Superconducting quantum processors are a compelling platform for analog quantum simulation due to the precision control, fast operation, and site-resolved readout inherent to the hardware. Arrays of coupled superconducting qubits natively emulate the dynamics of interacting particles according to the Bose-Hubbard model. However, many interesting condensed-matter phenomena emerge only in the presence of electromagnetic fields. Here, we emulate the dynamics of charged particles in an electromagnetic field using a superconducting quantum simulator. We realize a broadly adjustable synthetic magnetic vector potential by applying continuous modulation tones to all qubits. We verify that the synthetic vector potential obeys requisite properties of electromagnetism: a spatially-varying vector potential breaks time-reversal symmetry and generates a gauge-invariant synthetic magnetic field, and a temporally-varying vector potential produces a synthetic electric field. We demonstrate that the Hall effect--the transverse deflection of a charged particle propagating in an electromagnetic field--exists in the presence of the synthetic electromagnetic field.
翻訳日:2024-05-03 18:33:31 公開日:2024-05-01
# ソフトウェアテスト自動化における文脈認識型視覚変化検出のための人工知能

Artificial intelligence for context-aware visual change detection in software test automation ( http://arxiv.org/abs/2405.00874v1 )

ライセンス: Link先を確認
Milad Moradi, Ke Yan, David Colwell, Rhona Asgari, (参考訳) 自動化されたソフトウェアテストは、ソフトウェア開発プロセスに不可欠なもので、ワークフローを合理化し、製品の信頼性を保証する。 このコンテキストにおけるビジュアルテスト、特にユーザインターフェース(UI)とユーザエクスペリエンス(UX)の検証は、ソフトウェア全体の品質の重要な決定要因の1つです。 それにもかかわらず、ピクセルワイズ比較や領域ベースの視覚変化検出のような従来の手法は、文脈的類似性、ニュアンス付き変化、UI要素間の空間的関係の理解において不足している。 本稿では,ソフトウェアテスト自動化における視覚的変化検出のためのグラフベースの新しい手法を提案する。 機械学習モデルを用いて、ソフトウェアスクリーンショットからUI制御を正確に識別し、制御間の文脈的・空間的関係を表すグラフを構築する。 この情報は、ソフトウェアの異なるバージョンのスクリーンショット内のUIコントロール間の対応を見つけるために使用される。 結果として得られるグラフは、UIと基盤となるコンテキスト関係の複雑なレイアウトをカプセル化し、全体的なコンテキスト認識モデルを提供する。 このモデルは最終的に、UIの視覚的回帰を検出し、強調するために使用される。 異なるデータセットに対する総合的な実験により、我々の変更検出器は、様々な単純で複雑なテストシナリオにおける視覚的ソフトウェア変化を正確に検出できることがわかった。 さらに、より複雑なテストシナリオにおいて、ピクセルワイド比較とリージョンベースのベースラインを大きなマージンで上回りました。 実際のソフトウェアテスト自動化の課題に対する堅牢なソリューションを提供し、信頼性を高め、ソフトウェアインターフェースのシームレスな進化を保証する。

Automated software testing is integral to the software development process, streamlining workflows and ensuring product reliability. Visual testing within this context, especially concerning user interface (UI) and user experience (UX) validation, stands as one of crucial determinants of overall software quality. Nevertheless, conventional methods like pixel-wise comparison and region-based visual change detection fall short in capturing contextual similarities, nuanced alterations, and understanding the spatial relationships between UI elements. In this paper, we introduce a novel graph-based method for visual change detection in software test automation. Leveraging a machine learning model, our method accurately identifies UI controls from software screenshots and constructs a graph representing contextual and spatial relationships between the controls. This information is then used to find correspondence between UI controls within screenshots of different versions of a software. The resulting graph encapsulates the intricate layout of the UI and underlying contextual relations, providing a holistic and context-aware model. This model is finally used to detect and highlight visual regressions in the UI. Comprehensive experiments on different datasets showed that our change detector can accurately detect visual software changes in various simple and complex test scenarios. Moreover, it outperformed pixel-wise comparison and region-based baselines by a large margin in more complex testing scenarios. This work not only contributes to the advancement of visual change detection but also holds practical implications, offering a robust solution for real-world software test automation challenges, enhancing reliability, and ensuring the seamless evolution of software interfaces.
翻訳日:2024-05-03 18:33:31 公開日:2024-05-01
# 人間の視覚を超えて : 顕微鏡画像解析における大規模視覚言語モデルの役割

Beyond Human Vision: The Role of Large Vision Language Models in Microscope Image Analysis ( http://arxiv.org/abs/2405.00876v1 )

ライセンス: Link先を確認
Prateek Verma, Minh-Hao Van, Xintao Wu, (参考訳) 近年,視覚言語モデル (VLM) が登場し,画像とテキストデータの双対モダリティを理解する能力の注目を浴びている。 LLaVA、ChatGPT-4、GeminiなどのVLMは、最近、自然な画像キャプション、視覚的質問応答(VQA)、空間的推論といったタスクで顕著なパフォーマンスを示している。 さらに、Meta AIによるユニバーサルセグメンテーションモデルであるSegment Anything Model (SAM)は、予期せぬ画像からオブジェクトを分離する前例のないパフォーマンスを示す。 医学の専門家、生物学者、材料科学者は、字幕、文学、レポートの形式でテキスト情報とともに顕微鏡や医用画像を調べ、非常に重要かつ有意義な結論を導き出すため、これらの画像上でVLMやSAMのような基礎モデルの性能をテストすることは無作為に欠かせない。 本研究では,ChatGPT,LLaVA,Gemini,SAMに様々な顕微鏡画像の分類,セグメンテーション,カウント,VQAタスクを課金する。 我々は,ChatGPTとGeminiが顕微鏡画像の視覚的特徴を驚くほど理解できるのに対し,SAMは一般的な意味での人工物を分離する能力が高いことを観察した。 しかし、パフォーマンスはドメインエキスパートのものとは似ていない。モデルには不純物、欠陥、アーティファクトの重複、そして画像に存在する多様性が簡単に導入される。

Vision language models (VLMs) have recently emerged and gained the spotlight for their ability to comprehend the dual modality of image and textual data. VLMs such as LLaVA, ChatGPT-4, and Gemini have recently shown impressive performance on tasks such as natural image captioning, visual question answering (VQA), and spatial reasoning. Additionally, a universal segmentation model by Meta AI, Segment Anything Model (SAM) shows unprecedented performance at isolating objects from unforeseen images. Since medical experts, biologists, and materials scientists routinely examine microscopy or medical images in conjunction with textual information in the form of captions, literature, or reports, and draw conclusions of great importance and merit, it is indubitably essential to test the performance of VLMs and foundation models such as SAM, on these images. In this study, we charge ChatGPT, LLaVA, Gemini, and SAM with classification, segmentation, counting, and VQA tasks on a variety of microscopy images. We observe that ChatGPT and Gemini are impressively able to comprehend the visual features in microscopy images, while SAM is quite capable at isolating artefacts in a general sense. However, the performance is not close to that of a domain expert - the models are readily encumbered by the introduction of impurities, defects, artefact overlaps and diversity present in the images.
翻訳日:2024-05-03 18:23:47 公開日:2024-05-01
# Markov Flow Policy -- Deep MC

Markov flow policy -- deep MC ( http://arxiv.org/abs/2405.00877v1 )

ライセンス: Link先を確認
Nitsan Soffair, Gilad Katz, (参考訳) 分散アルゴリズムは、短期的な推定に依存するため、しばしば評価エラーに遭遇し、単純で短期的なタスクに対処し、望ましくない時間的割引(\(\gamma\))を課す効果を阻害する。 興味深いことに、これらのアルゴリズムは割引を適用することなくテストされることが多く、これは \textit{train-test bias} と呼ばれる現象である。 これらの課題に対応するために、我々は、非負のニューラルネットワークフローを利用して総合的な前方視予測を可能にするマルコフフローポリシーを提案する。 TD7コードベースへの統合と MuJoCo ベンチマークによる評価を通じて,MFP を平均報酬アルゴリズムの領域内での単純で実践的で実装が容易なソリューションとして位置づけ,大幅なパフォーマンス向上を観測した。

Discounted algorithms often encounter evaluation errors due to their reliance on short-term estimations, which can impede their efficacy in addressing simple, short-term tasks and impose undesired temporal discounts (\(\gamma\)). Interestingly, these algorithms are often tested without applying a discount, a phenomenon we refer as the \textit{train-test bias}. In response to these challenges, we propose the Markov Flow Policy, which utilizes a non-negative neural network flow to enable comprehensive forward-view predictions. Through integration into the TD7 codebase and evaluation using the MuJoCo benchmark, we observe significant performance improvements, positioning MFP as a straightforward, practical, and easily implementable solution within the domain of average rewards algorithms.
翻訳日:2024-05-03 18:23:47 公開日:2024-05-01
# SonicDiffusion:事前学習した拡散モデルによるオーディオ駆動画像生成と編集

SonicDiffusion: Audio-Driven Image Generation and Editing with Pretrained Diffusion Models ( http://arxiv.org/abs/2405.00878v1 )

ライセンス: Link先を確認
Burak Can Biner, Farrin Marouf Sofian, Umur Berkay Karakaş, Duygu Ceylan, Erkut Erdem, Aykut Erdem, (参考訳) 我々は最近の大規模テキスト・画像生成手法の成功により,条件付き画像合成の革命を目の当たりにしている。 この成功はまた、マルチモーダル入力を使用して生成および編集プロセスを制御する新しい機会を開く。 深度、スケッチ、その他の画像を用いた空間制御は、多くの研究を惹きつけてきたが、音と視覚が人間の知覚の2つの主要な構成要素であるため、同様に効果的なモダリティはオーディオであると主張する。 そこで本稿では,大規模画像拡散モデルにおいて,オーディオコンディショニングを可能にする手法を提案する。 提案手法は,まず音声クリップから得られた特徴を,テキストトークンに似た方法で拡散モデルに注入可能なトークンにマッピングする。 拡散モデルの元のレイヤの重みを凍結しながら微調整する。 音声条件付き画像生成に加えて、拡散に基づく編集手法と共役して、音声条件付き画像編集を可能にする。 本手法は,幅広い音声・画像データセットに対して実証する。 我々は最近の手法と広範囲に比較を行い、良好な性能を示す。

We are witnessing a revolution in conditional image synthesis with the recent success of large scale text-to-image generation methods. This success also opens up new opportunities in controlling the generation and editing process using multi-modal input. While spatial control using cues such as depth, sketch, and other images has attracted a lot of research, we argue that another equally effective modality is audio since sound and sight are two main components of human perception. Hence, we propose a method to enable audio-conditioning in large scale image diffusion models. Our method first maps features obtained from audio clips to tokens that can be injected into the diffusion model in a fashion similar to text tokens. We introduce additional audio-image cross attention layers which we finetune while freezing the weights of the original layers of the diffusion model. In addition to audio conditioned image generation, our method can also be utilized in conjuction with diffusion based editing methods to enable audio conditioned image editing. We demonstrate our method on a wide range of audio and image datasets. We perform extensive comparisons with recent methods and show favorable performance.
翻訳日:2024-05-03 18:23:47 公開日:2024-05-01
# 気候利用データ削減のための機械学習技術

Machine Learning Techniques for Data Reduction of Climate Applications ( http://arxiv.org/abs/2405.00879v1 )

ライセンス: Link先を確認
Xiao Li, Qian Gong, Jaemoon Lee, Scott Klasky, Anand Rangarajan, Sanjay Ranka, (参考訳) 科学者は、一次データから導出した興味の量(QoI)を計算するために大規模なシミュレーションを行う。 QoIは特定の特徴、地域、時間間隔に関連付けられ、QoIの整合性を損なうことなくデータを適応的に低減することができる。 多くの時空間的応用において、これらのQoIは自然界において二項であり、物理的現象の有無を表す。 本稿では,まずニューラルネットワーク技術を用いてQoIが存在する可能性が高い領域を導出するパイプライン圧縮手法を提案する。 次に、Gurranteed Autoencoder (GAE) を用いて、差分誤差境界を持つデータを圧縮する。 GAEはQoI情報を使用して、これらの領域のみに低エラー圧縮を適用する。 これにより、シミュレーションやデータ収集の下流目標を達成しつつ、全体的な高い圧縮比が得られる。 熱帯性サイクロンや大気中の河川検出・追跡などの下流量のE3SMシミュレーションモデルから得られた気候データについて実験を行った。 これらの結果から,本手法は文献に比較して優れていることがわかった。

Scientists conduct large-scale simulations to compute derived quantities-of-interest (QoI) from primary data. Often, QoI are linked to specific features, regions, or time intervals, such that data can be adaptively reduced without compromising the integrity of QoI. For many spatiotemporal applications, these QoI are binary in nature and represent presence or absence of a physical phenomenon. We present a pipelined compression approach that first uses neural-network-based techniques to derive regions where QoI are highly likely to be present. Then, we employ a Guaranteed Autoencoder (GAE) to compress data with differential error bounds. GAE uses QoI information to apply low-error compression to only these regions. This results in overall high compression ratios while still achieving downstream goals of simulation or data collections. Experimental results are presented for climate data generated from the E3SM Simulation model for downstream quantities such as tropical cyclone and atmospheric river detection and tracking. These results show that our approach is superior to comparable methods in the literature.
翻訳日:2024-05-03 18:23:47 公開日:2024-05-01
# WHALE-FL:Adaptive Subnetwork Schedulingによるモバイルデバイス上での遅延学習を意識した無線・不均一性

WHALE-FL: Wireless and Heterogeneity Aware Latency Efficient Federated Learning over Mobile Devices via Adaptive Subnetwork Scheduling ( http://arxiv.org/abs/2405.00885v1 )

ライセンス: Link先を確認
Huai-an Su, Jiaxiang Geng, Liang Li, Xiaoqi Qin, Yanzhao Hou, Xin Fu, Miao Pan, (参考訳) 一般的な分散学習パラダイムとして、モバイルデバイス上でのフェデレーション学習(FL)は、多数のアプリケーションを育成する一方で、その実践的な展開は、参加するデバイスのコンピューティングとコミュニケーションの不均一性によって妨げられている。 いくつかの先駆的な研究は、グローバルモデルからサブネットワークを抽出し、その完全な計算能力と通信能力に基づいたローカルトレーニングのためのデバイスに可能な限り大規模なサブネットワークを割り当てることを提案した。 このような固定サイズのサブネットワーク割り当ては、不均一なモバイルデバイス上でのFLトレーニングを可能にするが、それは知らない。 (i)機器の通信・コンピューティング条件の動的変化 (II)FLトレーニングの進行と局所的なトレーニングへの貢献の動的要求はどちらも非常に長いFLトレーニングの遅延を引き起こす可能性がある。 そこで本研究では,適応サブネットワークスケジューリングによるFLトレーニングを高速化するために,無線かつ不均一性を考慮したレイテンシ効率FL (WHALE-FL) アプローチを開発した。 固定サイズのサブネットワークに固執する代わりに、WHALE-FLはデバイスとFLトレーニングダイナミクスをキャプチャする新しいサブネットワーク選択ユーティリティ機能を導入し、ローカルトレーニングに基づいてサブネットワークサイズを適応的に選択するようにモバイルデバイスを誘導する。 a) 計算能力と通信能力 (b)その動的計算および/または通信条件、 (c)FL研修の状況とその地域研修への貢献要件。 評価の結果,WHALE-FLはピアデザインと比較して,学習精度を犠牲にすることなく,FLトレーニングを効果的に加速することがわかった。

As a popular distributed learning paradigm, federated learning (FL) over mobile devices fosters numerous applications, while their practical deployment is hindered by participating devices' computing and communication heterogeneity. Some pioneering research efforts proposed to extract subnetworks from the global model, and assign as large a subnetwork as possible to the device for local training based on its full computing and communications capacity. Although such fixed size subnetwork assignment enables FL training over heterogeneous mobile devices, it is unaware of (i) the dynamic changes of devices' communication and computing conditions and (ii) FL training progress and its dynamic requirements of local training contributions, both of which may cause very long FL training delay. Motivated by those dynamics, in this paper, we develop a wireless and heterogeneity aware latency efficient FL (WHALE-FL) approach to accelerate FL training through adaptive subnetwork scheduling. Instead of sticking to the fixed size subnetwork, WHALE-FL introduces a novel subnetwork selection utility function to capture device and FL training dynamics, and guides the mobile device to adaptively select the subnetwork size for local training based on (a) its computing and communication capacity, (b) its dynamic computing and/or communication conditions, and (c) FL training status and its corresponding requirements for local training contributions. Our evaluation shows that, compared with peer designs, WHALE-FL effectively accelerates FL training without sacrificing learning accuracy.
翻訳日:2024-05-03 18:23:47 公開日:2024-05-01
# DynaMo:動的マルチトークンサンプリングによる言語モデル推論の高速化

DynaMo: Accelerating Language Model Inference with Dynamic Multi-Token Sampling ( http://arxiv.org/abs/2405.00888v1 )

ライセンス: Link先を確認
Shikhar Tuli, Chi-Heng Lin, Yen-Chang Hsu, Niraj K. Jha, Yilin Shen, Hongxia Jin, (参考訳) 従来の言語モデルは自動回帰的、すなわち1つのトークンを1度に予測する。 モデルサイズの急激な爆発は、高い推測時間をもたらした。 本研究では,ネット推測時間を削減するマルチトークン予測言語モデルであるDynaMoを提案する。 我々のモデル $\textit{dynamically}$ は、予測された関節確率分布に対する信頼度に基づいて複数のトークンを予測する。 本稿では,従来の自己回帰モデルの重みを生かして,これらのモデルを訓練するための軽量な手法を提案する。 さらに,テキスト生成品質,すなわち共起重みマスキングと適応しきい値処理を改善するために,推定結合確率を高める新しい手法を提案する。 また、非自己回帰生成のための生成したテキストの品質を厳格にテストするための系統的定性的かつ定量的手法を提案する。 我々のスイートの1つのモデルであるDynaMo-7.3B-T3はベースライン(Pythia-6.9B)と同じ品質のテキストを生成し、それぞれ5.87%と2.67%のパラメータで2.57$\times$スピードアップを達成した。

Traditional language models operate autoregressively, i.e., they predict one token at a time. Rapid explosion in model sizes has resulted in high inference times. In this work, we propose DynaMo, a suite of multi-token prediction language models that reduce net inference times. Our models $\textit{dynamically}$ predict multiple tokens based on their confidence in the predicted joint probability distribution. We propose a lightweight technique to train these models, leveraging the weights of traditional autoregressive counterparts. Moreover, we propose novel ways to enhance the estimated joint probability to improve text generation quality, namely co-occurrence weighted masking and adaptive thresholding. We also propose systematic qualitative and quantitative methods to rigorously test the quality of generated text for non-autoregressive generation. One of the models in our suite, DynaMo-7.3B-T3, achieves same-quality generated text as the baseline (Pythia-6.9B) while achieving 2.57$\times$ speed-up with only 5.87% and 2.67% parameter and training time overheads, respectively.
翻訳日:2024-05-03 18:23:47 公開日:2024-05-01
# Wake Vision: TinyML人物検出のための大規模分散データセットとベンチマークスイート

Wake Vision: A Large-scale, Diverse Dataset and Benchmark Suite for TinyML Person Detection ( http://arxiv.org/abs/2405.00892v1 )

ライセンス: Link先を確認
Colby Banbury, Emil Njor, Matthew Stewart, Pete Warden, Manjunath Kudlur, Nat Jeffries, Xenofon Fafoutis, Vijay Janapa Reddi, (参考訳) 極低消費電力デバイス上の機械学習アプリケーション(一般的には小さな機械学習(TinyML))は、より賢くより接続された世界を約束する。 しかし、現在のTinyML研究の進歩は、関連するデータセットのサイズと品質の制限によって妨げられている。 この課題に対処するために、私たちは、人物検出に適した大規模で多様なデータセットである、TinyMLビジュアルセンシングの標準的なタスクであるWake Visionを紹介した。 Wake Visionは600万枚以上の画像で構成されており、これは以前の標準より100倍も大きくなり、徹底的な品質のフィルタリングが行われている。 Wake Visionをトレーニングに使用すると、既存のベンチマークと比べて2.41倍の精度が向上する。 データセットの他に、様々な照明条件、カメラからの距離、被験者の人口統計特性など、テストデータの特定のセグメントでモデル性能を評価する5つの詳細なベンチマークセットのコレクションを提供する。 これらの新しいきめ細かいベンチマークは、全体的な正確性だけに焦点を合わせると無視される現実のシナリオに挑戦する上で、モデル品質の評価を促進する。 ベンチマークによるMobileNetV2 TinyMLモデルの評価により,入力解像度は遠距離対象の検出においてモデル幅よりも重要な役割を担い,また,データセットの品質により,モデルロバスト性に対する量子化の影響は最小限であることを示す。 これらの結果は、モデル開発に不可欠な要素を特定するための詳細な評価の重要性を浮き彫りにした。 データセット、ベンチマークスイート、コード、モデルはCC-BY 4.0ライセンスの下で公開されている。

Machine learning applications on extremely low-power devices, commonly referred to as tiny machine learning (TinyML), promises a smarter and more connected world. However, the advancement of current TinyML research is hindered by the limited size and quality of pertinent datasets. To address this challenge, we introduce Wake Vision, a large-scale, diverse dataset tailored for person detection -- the canonical task for TinyML visual sensing. Wake Vision comprises over 6 million images, which is a hundredfold increase compared to the previous standard, and has undergone thorough quality filtering. Using Wake Vision for training results in a 2.41\% increase in accuracy compared to the established benchmark. Alongside the dataset, we provide a collection of five detailed benchmark sets that assess model performance on specific segments of the test data, such as varying lighting conditions, distances from the camera, and demographic characteristics of subjects. These novel fine-grained benchmarks facilitate the evaluation of model quality in challenging real-world scenarios that are often ignored when focusing solely on overall accuracy. Through an evaluation of a MobileNetV2 TinyML model on the benchmarks, we show that the input resolution plays a more crucial role than the model width in detecting distant subjects and that the impact of quantization on model robustness is minimal, thanks to the dataset quality. These findings underscore the importance of a detailed evaluation to identify essential factors for model development. The dataset, benchmark suite, code, and models are publicly available under the CC-BY 4.0 license, enabling their use for commercial use cases.
翻訳日:2024-05-03 18:23:47 公開日:2024-05-01
# 周期量子イジングスピン鎖の制御性

Controllability of the Periodic Quantum Ising Spin Chain ( http://arxiv.org/abs/2405.00898v1 )

ライセンス: Link先を確認
Domenico D'Alessandro, Yasemin Isik, (参考訳) 本稿では,2つのハミルトニアン間の補間パラメータが制御の役割を果たすnスピン1/2粒子の量子イジング周期鎖の可制御性解析を行う。 量子系の制御理論における基本的な結果は、達成可能な進化の集合が、系のハミルトニアンによって生成されるリー代数に対応するリー群(dense in)であることを示している。 そのような動的リー代数は、与えられた系で利用可能な状態遷移を特徴づける。 イジングスピン周期鎖に対して、そのような動的リー代数を特徴づけ、従ってすべての到達可能な状態の集合を特徴づける。 特に、動的リー環は、Su(2^n) の(3n-1)-次元リー部分代数であり、2次元中心の直和であり、(3n-3)-次元半単純リー部分代数であることを示す。 これは n-1 リー代数の直和であり、固定行列の固有値によってパラメトリケートされた su(2) に同型である。 これらのリー部分代数の基底を示す。 したがって、イジングスピン周期鎖の制御の問題は、n-1スピン1/2粒子の同時制御の問題である2次元中心の変調である。 この結果を証明する過程で、対称性を持つ量子系の可制御性解析に一般的なツールを開発する。

In this paper, we present a controllability analysis of the quantum Ising periodic chain of n spin 1/2 particles where the interpolating parameter between the two Hamiltonians plays the role of the control. A fundamental result in the control theory of quantum systems states that the set of achievable evolutions is (dense in) the Lie group corresponding to the Lie algebra generated by the Hamiltonians of the system. Such a dynamical Lie algebra therefore characterizes all the state transitions available for a given system. For the Ising spin periodic chain we characterize such a dynamical Lie algebra and therefore the set of all reachable states. In particular, we prove that the dynamical Lie algebra is a (3n-1)-dimensional Lie sub-algebra of su(2^n) which is a direct sum of a two dimensional center and a (3n-3)-dimensional semisimple Lie subalgebra. This in turn is the direct sum of n-1 Lie algebras isomorphic to su(2) parametrized by the eigenvalues of a fixed matrix. We display the basis for each of these Lie subalgebras. Therefore the problem of control for the Ising spin periodic chain is, modulo the two dimensional center, a problem of simultaneous control of n-1 spin 1/2 particles. In the process of proving this result, we develop some tools which are of general interest for the controllability analysis of quantum systems with symmetry.
翻訳日:2024-05-03 18:23:47 公開日:2024-05-01
# 人間と大言語モデルにおける創造的プロセスの特徴付け

Characterising the Creative Process in Humans and Large Language Models ( http://arxiv.org/abs/2405.00899v1 )

ライセンス: Link先を確認
Surabhi S. Nath, Peter Dayan, Claire Stevenson, (参考訳) 大きな言語モデルは非常に創造的で、創造的なタスクにおいて平均的な人間と同等に機能することが多い。 しかし, LLM の創造性の研究は, 創造性にはほとんど関心を持たず, 単に \textit{products} に焦点を絞っている。 人間の創造性に関するプロセス分析は、しばしば手書きのカテゴリや応答時間を利用する必要があるが、LLMには適用されない。 本稿では,人間とLLMが交互利用課題における意味空間を探索する方法と,言語周波数課題における行動とを対比する手法を提案する。 文埋め込みを用いて応答カテゴリを識別し、ジャンププロファイルを生成するために使用する意味的類似性を計算する。 我々の結果は、人間における初期の研究と相関し、永続性(意味空間の深部探索)とフレキシブル(複数の意味空間を横断する広部探索)の両方を創造性へと導いてくれる。 LLMは、タスクによって異なる永続性または柔軟なパスに偏りがあることが判明した。 人口としてのLSMは人間のプロファイルと一致するが、創造性との関係は異なる。 我々のデータセットとスクリプトは \href{https://github.com/surabhisnath/Creative_Process}{GitHub} で入手できる。

Large language models appear quite creative, often performing on par with the average human on creative tasks. However, research on LLM creativity has focused solely on \textit{products}, with little attention on the creative \textit{process}. Process analyses of human creativity often require hand-coded categories or exploit response times, which do not apply to LLMs. We provide an automated method to characterise how humans and LLMs explore semantic spaces on the Alternate Uses Task, and contrast with behaviour in a Verbal Fluency Task. We use sentence embeddings to identify response categories and compute semantic similarities, which we use to generate jump profiles. Our results corroborate earlier work in humans reporting both persistent (deep search in few semantic spaces) and flexible (broad search across multiple semantic spaces) pathways to creativity, where both pathways lead to similar creativity scores. LLMs were found to be biased towards either persistent or flexible paths, that varied across tasks. Though LLMs as a population match human profiles, their relationship with creativity is different, where the more flexible models score higher on creativity. Our dataset and scripts are available on \href{https://github.com/surabhisnath/Creative_Process}{GitHub}.
翻訳日:2024-05-03 18:23:47 公開日:2024-05-01
# DiL-NeRF:ストリートシーンにおけるニューラルラジアンスフィールドのためのライダーに埋もれ込む

DiL-NeRF: Delving into Lidar for Neural Radiance Field on Street Scenes ( http://arxiv.org/abs/2405.00900v1 )

ライセンス: Link先を確認
Shanlin Sun, Bingbing Zhuang, Ziyu Jiang, Buyu Liu, Xiaohui Xie, Manmohan Chandraker, (参考訳) 光リアリスティックシミュレーションは、自律運転のようなアプリケーションにおいて重要な役割を担い、ニューラルラディアンスフィールド(NeRF)の進歩により、デジタル3Dアセットの自動作成によるスケーラビリティの向上が期待できる。 しかし、大半がコリニアカメラの動きとスペーサーサンプリングにより、道路の景観に復元品質が損なわれている。 一方、アプリケーションはしばしば、車線変更のような行動を正確にシミュレートするために、入力から逸脱するカメラビューからのレンダリングを要求する。 本稿では,Lidarデータを利用した街路におけるNeRF品質向上のためのいくつかの知見を提案する。 まず,ラディアンスデコーディングのための暗黙のグリッドベース表現と融合したLidarから幾何学的シーン表現を学習し,明示的な点雲によって提供されるより強力な幾何学的情報を提供する。 次に, 密度化ライダー点の蓄積による利用を可能にする, 密閉型奥行き監視方式を提案する。 第3に、さらなる改善のためにLidarポイントから強化されたトレーニングビューを生成します。 私たちの洞察は、実際の運転シーン下での新規ビュー合成を大幅に改善することにつながります。

Photorealistic simulation plays a crucial role in applications such as autonomous driving, where advances in neural radiance fields (NeRFs) may allow better scalability through the automatic creation of digital 3D assets. However, reconstruction quality suffers on street scenes due to largely collinear camera motions and sparser samplings at higher speeds. On the other hand, the application often demands rendering from camera views that deviate from the inputs to accurately simulate behaviors like lane changes. In this paper, we propose several insights that allow a better utilization of Lidar data to improve NeRF quality on street scenes. First, our framework learns a geometric scene representation from Lidar, which is fused with the implicit grid-based representation for radiance decoding, thereby supplying stronger geometric information offered by explicit point cloud. Second, we put forth a robust occlusion-aware depth supervision scheme, which allows utilizing densified Lidar points by accumulation. Third, we generate augmented training views from Lidar points for further improvement. Our insights translate to largely improved novel view synthesis under real driving scenes.
翻訳日:2024-05-03 18:23:47 公開日:2024-05-01
# MESA: 複数エージェント学習における協調的メタ探索

MESA: Cooperative Meta-Exploration in Multi-Agent Learning through Exploiting State-Action Space Structure ( http://arxiv.org/abs/2405.00902v1 )

ライセンス: Link先を確認
Zhicheng Zhang, Yancheng Liang, Yi Wu, Fei Fang, (参考訳) マルチエージェント強化学習(MARL)アルゴリズムは、効率的探索の欠如により、パレート最適ナッシュ平衡に近い戦略を見つけるのに苦労することが多い。 この問題は、政策学習で示される大きな分散によって引き起こされるスパース・リワード・セッティングにおいて悪化する。 本稿では,協調型マルチエージェント学習のためのメタ探索手法であるMESAを紹介する。 エージェントはまず、訓練タスクからエージェントの高度に反転する状態-行動サブスペースを識別し、次にサブスペースを"探索する"ための多様な探索ポリシーのセットを学ぶことで探索を学ぶ。 これらの訓練された探索ポリシーは、テストタイムタスクの任意のオフポリティクスMARLアルゴリズムと統合することができる。 我々はまず,マルチステップ行列ゲームにおいてMESAの優位性を示す。 さらに,複数のマルチエージェント粒子環境およびマルチエージェント MuJoCo 環境におけるスパース・リワードタスクにおいて,学習された探索ポリシにより,MESA は,テスト時により困難なタスクに一般化する能力を示す。

Multi-agent reinforcement learning (MARL) algorithms often struggle to find strategies close to Pareto optimal Nash Equilibrium, owing largely to the lack of efficient exploration. The problem is exacerbated in sparse-reward settings, caused by the larger variance exhibited in policy learning. This paper introduces MESA, a novel meta-exploration method for cooperative multi-agent learning. It learns to explore by first identifying the agents' high-rewarding joint state-action subspace from training tasks and then learning a set of diverse exploration policies to "cover" the subspace. These trained exploration policies can be integrated with any off-policy MARL algorithm for test-time tasks. We first showcase MESA's advantage in a multi-step matrix game. Furthermore, experiments show that with learned exploration policies, MESA achieves significantly better performance in sparse-reward tasks in several multi-agent particle environments and multi-agent MuJoCo environments, and exhibits the ability to generalize to more challenging tasks at test time.
翻訳日:2024-05-03 18:23:47 公開日:2024-05-01
# ソーシャルメディアにおける自然災害の特定と評価のためのエンティティ認識とトピックモデリングに基づくソリューション

A Named Entity Recognition and Topic Modeling-based Solution for Locating and Better Assessment of Natural Disasters in Social Media ( http://arxiv.org/abs/2405.00903v1 )

ライセンス: Link先を確認
Ayaz Mehmood, Muhammad Tayyab Zamir, Muhammad Asif Ayub, Nasir Ahmad, Kashif Ahmad, (参考訳) 過去10年間で、他のアプリケーションドメインと同様に、ソーシャルメディアコンテンツは災害情報学に非常に効果的であることが証明された。 しかし,データの構造化されていない性質から,ソーシャルメディアコンテンツにおける災害解析にいくつかの課題が関与している。 災害情報学におけるソーシャルメディアコンテンツの可能性を完全に探求するためには、関連コンテンツへのアクセスと適切な位置情報情報が非常に重要である。 本稿では,これらの課題に対処するための3段階の解決策を提案する。 提案手法は,ソーシャルメディアの投稿を関連性のあるポストと無関係なポストに分類することを目的としており,次いで名前付きエンティティ認識(NER)分析を通じて投稿テキストから位置情報を自動的に抽出する。 最後に、大量のソーシャルメディア投稿でカバーされているトピックを迅速に分析するために、このツイートで議論された問題をハイライトするトップキーワードのリストが得られたトピックモデリングを実行する。 Relevant Classification of Twitter Posts (RCTP) では,BERT,RoBERTa,Distil BERT,ALBERTという4種類のモデルの能力を組み合わせたメリットベースの融合フレームワークを提案し,ベンチマークデータセットで0.933のF1スコアを得た。 Twitter Text (LETT) の位置情報抽出では, BERT, RoBERTa, Distil BERTA, Electra の4つのモデルを NER フレームワークで評価した。 トピックモデリングでは、BERTopicライブラリを使用して、関連するツイートに隠されたトピックパターンを発見しました。 提案するエンド・ツー・エンド・ソリューションのすべてのコンポーネントの実験結果は,災害管理におけるソーシャルメディアコンテンツとNLPの可能性を強く示唆している。

Over the last decade, similar to other application domains, social media content has been proven very effective in disaster informatics. However, due to the unstructured nature of the data, several challenges are associated with disaster analysis in social media content. To fully explore the potential of social media content in disaster informatics, access to relevant content and the correct geo-location information is very critical. In this paper, we propose a three-step solution to tackling these challenges. Firstly, the proposed solution aims to classify social media posts into relevant and irrelevant posts followed by the automatic extraction of location information from the posts' text through Named Entity Recognition (NER) analysis. Finally, to quickly analyze the topics covered in large volumes of social media posts, we perform topic modeling resulting in a list of top keywords, that highlight the issues discussed in the tweet. For the Relevant Classification of Twitter Posts (RCTP), we proposed a merit-based fusion framework combining the capabilities of four different models namely BERT, RoBERTa, Distil BERT, and ALBERT obtaining the highest F1-score of 0.933 on a benchmark dataset. For the Location Extraction from Twitter Text (LETT), we evaluated four models namely BERT, RoBERTa, Distil BERTA, and Electra in an NER framework obtaining the highest F1-score of 0.960. For topic modeling, we used the BERTopic library to discover the hidden topic patterns in the relevant tweets. The experimental results of all the components of the proposed end-to-end solution are very encouraging and hint at the potential of social media content and NLP in disaster management.
翻訳日:2024-05-03 18:23:47 公開日:2024-05-01
# LOTUS: スパーシィプルーニングとデータロテリティケットによるトランスフォーマー効率の向上

LOTUS: Improving Transformer Efficiency with Sparsity Pruning and Data Lottery Tickets ( http://arxiv.org/abs/2405.00906v1 )

ライセンス: Link先を確認
Ojasw Upadhyay, (参考訳) ビジョントランスフォーマーはコンピュータビジョンに革命をもたらしたが、その計算要求はトレーニングとデプロイメントの課題を提示している。 本稿では,データ宝くじの選択とスパシティプルーニングを利用して,精度を維持しながら視覚変換器のトレーニングを高速化する,LOTUS(Lottery Transformers with Ultra Sparsity)を提案する。 我々のアプローチは、最も情報性の高いデータサブセットを特定し、活用することに焦点を当て、トレーニングプロセスを最適化するために冗長なモデルパラメータを排除します。 大規模な実験を通じて,計算要求を著しく低減した高速収束と高精度化を実現する上でのLOTUSの有効性を実証した。 この研究は、効率的な視覚変換器訓練のためのデータ選択と疎結合技術の組み合わせの可能性を強調し、この分野におけるさらなる研究と開発のための扉を開く。

Vision transformers have revolutionized computer vision, but their computational demands present challenges for training and deployment. This paper introduces LOTUS (LOttery Transformers with Ultra Sparsity), a novel method that leverages data lottery ticket selection and sparsity pruning to accelerate vision transformer training while maintaining accuracy. Our approach focuses on identifying and utilizing the most informative data subsets and eliminating redundant model parameters to optimize the training process. Through extensive experiments, we demonstrate the effectiveness of LOTUS in achieving rapid convergence and high accuracy with significantly reduced computational requirements. This work highlights the potential of combining data selection and sparsity techniques for efficient vision transformer training, opening doors for further research and development in this area.
翻訳日:2024-05-03 18:23:47 公開日:2024-05-01
# トランスフォーマーを用いた自己監督学習による虚血性ストローククロートの起源の組織学的分類

Transformer-Based Self-Supervised Learning for Histopathological Classification of Ischemic Stroke Clot Origin ( http://arxiv.org/abs/2405.00908v1 )

ライセンス: Link先を確認
K. Yeh, M. S. Jabal, V. Gupta, D. F. Kallmes, W. Brinjikji, B. S. Erdal, (参考訳) 背景と目的: 虚血性脳卒中における血栓塞栓源の同定は治療に不可欠であり, 二次予防は未決定であることが多い。 本研究は,虚血性脳梗塞の起源を病理組織像から分類するために,塞栓のデジタル病理学における自己指導型深層学習アプローチについて述べる。 方法: このデータセットは,機械的血栓摘出術後の虚血性脳卒中患者から採取したクロートからなるSTRIP AI Kaggle Challengeの全スライド画像(WSI)を含む。 トランスフォーマーに基づくディープラーニングモデルは,WSI分類のためのトランスファーラーニングと自己教師付き事前学習を用いて開発された。 カスタマイズには、アテンションプーリング層、重み付き損失関数、しきい値最適化が含まれる。 各種モデルアーキテクチャを試験,比較し,重み付き対数損失を用いたモデル性能の評価を行った。 結果: クロスバリデーションでは0.662点, テストセットでは0.659点であった。 swin_large_patch4_window12_384は高い性能を示した。 偽陽性と負のバランスをとるために, クロート起源分類のための留置法が用いられた。 結論: 本研究は, 組織像から虚血性脳梗塞の起源を同定する上で, トランスフォーマーを用いた深層学習モデルの有効性を示すとともに, トロンビWSIに特化して適応する洗練されたモデリング技術の必要性を強調した。 モデルの性能、解釈可能性、有効性を検証するためには、さらなる研究が必要である。 将来の拡張には、より大きな患者コホートの統合、高度な前処理戦略、診断精度を高めるためのアンサンブル・マルチモーダル手法の探索が含まれる。

Background and Purpose: Identifying the thromboembolism source in ischemic stroke is crucial for treatment and secondary prevention yet is often undetermined. This study describes a self-supervised deep learning approach in digital pathology of emboli for classifying ischemic stroke clot origin from histopathological images. Methods: The dataset included whole slide images (WSI) from the STRIP AI Kaggle challenge, consisting of retrieved clots from ischemic stroke patients following mechanical thrombectomy. Transformer-based deep learning models were developed using transfer learning and self-supervised pretraining for classifying WSI. Customizations included an attention pooling layer, weighted loss function, and threshold optimization. Various model architectures were tested and compared, and model performances were primarily evaluated using weighted logarithmic loss. Results: The model achieved a logloss score of 0.662 in cross-validation and 0.659 on the test set. Different model backbones were compared, with the swin_large_patch4_window12_384 showed higher performance. Thresholding techniques for clot origin classification were employed to balance false positives and negatives. Conclusion: The study demonstrates the extent of efficacy of transformer-based deep learning models in identifying ischemic stroke clot origins from histopathological images and emphasizes the need for refined modeling techniques specifically adapted to thrombi WSI. Further research is needed to improve model performance, interpretability, validate its effectiveness. Future enhancement could include integrating larger patient cohorts, advanced preprocessing strategies, and exploring ensemble multimodal methods for enhanced diagnostic accuracy.
翻訳日:2024-05-03 18:23:47 公開日:2024-05-01
# データエンコーディングによるクラウドにおける量子フェデレーション学習実験

Quantum Federated Learning Experiments in the Cloud with Data Encoding ( http://arxiv.org/abs/2405.00909v1 )

ライセンス: Link先を確認
Shiva Raj Pokhrel, Naman Yash, Jonathan Kua, Gang Li, Lei Pan, (参考訳) 量子フェデレーション学習(QFL)は、量子ネットワーク上でのフェデレーション学習(FL)の展開を目的とした、新たな概念である。 我々は、QFLをクラウドプラットフォームにデプロイする際の課題について検討し、量子の複雑さとプラットフォームの制限を強調した。 提案したQFLは、量子シミュレータ上のゲノムデータセットを用いた概念実証(GitHub Open Source)により、有望な結果を示している。

Quantum Federated Learning (QFL) is an emerging concept that aims to unfold federated learning (FL) over quantum networks, enabling collaborative quantum model training along with local data privacy. We explore the challenges of deploying QFL on cloud platforms, emphasizing quantum intricacies and platform limitations. The proposed data-encoding-driven QFL, with a proof of concept (GitHub Open Source) using genomic data sets on quantum simulators, shows promising results.
翻訳日:2024-05-03 18:23:47 公開日:2024-05-01
# バイアス決定の非バイアスモデル:モーゲージ応用データを用いた手法の比較

De-Biasing Models of Biased Decisions: A Comparison of Methods Using Mortgage Application Data ( http://arxiv.org/abs/2405.00910v1 )

ライセンス: Link先を確認
Nicholas Tenev, (参考訳) 予測モデルはローン申請の承認などの意思決定を自動化することで効率を向上させることができる。 しかし、訓練されたデータから保護されたグループに対する偏見を継承する可能性がある。 本稿では、住宅ローン申請決定の実際のデータに反実的(シミュレートされた)民族バイアスを加え、このバイアスが予測変数として使用されていない場合でも、機械学習モデル(XGBoost)によって複製されることを示す。 次に、禁止変数に対する平均化、禁止変数に対する最も好ましい予測(新しい方法)、エラーの最小化、および予測と禁止変数の関係について比較する。 デバイアスは元の決定の一部を取り戻すことができるが、結果はプロキシを通じてバイアスが影響されるかどうかに敏感である。

Prediction models can improve efficiency by automating decisions such as the approval of loan applications. However, they may inherit bias against protected groups from the data they are trained on. This paper adds counterfactual (simulated) ethnic bias to real data on mortgage application decisions, and shows that this bias is replicated by a machine learning model (XGBoost) even when ethnicity is not used as a predictive variable. Next, several other de-biasing methods are compared: averaging over prohibited variables, taking the most favorable prediction over prohibited variables (a novel method), and jointly minimizing errors as well as the association between predictions and prohibited variables. De-biasing can recover some of the original decisions, but the results are sensitive to whether the bias is effected through a proxy.
翻訳日:2024-05-03 18:14:01 公開日:2024-05-01
# バイレベル最適化とミニマックス最適化のための高速化された1次一階法

Accelerated Fully First-Order Methods for Bilevel and Minimax Optimization ( http://arxiv.org/abs/2405.00914v1 )

ライセンス: Link先を確認
Chris Junchi Li, (参考訳) 本稿では,二値最適化のための一階法,すなわち,二値近似のための一階法を高速化するアルゴリズムを新たに提案する。 このアルゴリズムは、emph{fully} の1次オラクルを活用し、非凸-強凸二レベル最適化における近似定常点を求め、効率的な最適化のためにオラクル複雑性を向上する。 現状の問合せ複雑度における近似的な1次定常点と2次定常点を求める理論的保証が確立され、それらの複雑な最適化タスクの解法の有効性が示された。 本研究では,実世界の問題に対する実証的研究を行い,提案アルゴリズムの有効性を検証した。 非凸-強凸二値最適化問題の最適化における \texttt{(P)RAF${}^2$BA} の重要性は、その最先端収束率と計算効率によって証明される。

This paper presents a new algorithm member for accelerating first-order methods for bilevel optimization, namely the \emph{(Perturbed) Restarted Accelerated Fully First-order methods for Bilevel Approximation}, abbreviated as \texttt{(P)RAF${}^2$BA}. The algorithm leverages \emph{fully} first-order oracles and seeks approximate stationary points in nonconvex-strongly-convex bilevel optimization, enhancing oracle complexity for efficient optimization. Theoretical guarantees for finding approximate first-order stationary points and second-order stationary points at the state-of-the-art query complexities are established, showcasing their effectiveness in solving complex optimization tasks. Empirical studies for real-world problems are provided to further validate the outperformance of our proposed algorithms. The significance of \texttt{(P)RAF${}^2$BA} in optimizing nonconvex-strongly-convex bilevel optimization problems is underscored by its state-of-the-art convergence rates and computational efficiency.
翻訳日:2024-05-03 18:14:01 公開日:2024-05-01
# 大規模言語モデルのテキスト生成をリアルタイムに保護するためのフレームワーク

A Framework for Real-time Safeguarding the Text Generation of Large Language Model ( http://arxiv.org/abs/2404.19048v2 )

ライセンス: Link先を確認
Ximing Dong, Dayi Lin, Shaowei Wang, Ahmed E. Hassan, (参考訳) 大規模言語モデル(LLM)は、非常に高度な自然言語処理(NLP)タスクを持つが、有害なコンテンツを生成するための適合性のために倫理的・社会的リスクも生じる。 これを解決するために、LLMが安全でないコンテンツを生成するのを防ぐ様々なアプローチが開発されている。 しかし、既存の手法には、特定の制御モデルのトレーニングやテキスト生成時の積極的な介入の必要性など、品質劣化と計算オーバーヘッドの増加につながる制限がある。 これらの制限を緩和するために,LLMテキスト生成をリアルタイムに保護する軽量フレームワークであるLLMSafeGuardを提案する。 LLMSafeGuardは、デコード中のビーム検索アルゴリズムに外部バリデータを統合する。 類似性に基づく検証手法を導入し,制約の導入を簡略化し,制御モデルトレーニングの必要性を排除した。 加えて、LLMSafeGuardはコンテキストワイズタイミング選択戦略を採用しており、必要なときにのみLLMを介入する。 我々は,LSMSafeGuardを2つのタスク,すなわちデトキシ化と著作権保護を行い,SOTAベースラインよりも優れた性能を示す。 例えば、LLMSafeGuardは、平均的な毒性スコアを下げる。 LLMの出力は29.7%と最良基準値に対して、解毒作業における自然の出力と同様の言語的品質を保っている。 同様に、著作権上のタスクでは、LLMSafeGuardはベースラインに比べてLongest Common Subsequence (LCS)を56.2%削減する。 さらに、文脈的タイミング選択戦略は、各時間ステップの検証に匹敵する有効性を保ちながら、推論時間を少なくとも24%削減する。 LLMSafeGuardは、その効率性と効率のバランスをとるために、調整可能なパラメータも提供している。

Large Language Models (LLMs) have significantly advanced natural language processing (NLP) tasks but also pose ethical and societal risks due to their propensity to generate harmful content. To address this, various approaches have been developed to safeguard LLMs from producing unsafe content. However, existing methods have limitations, including the need for training specific control models and proactive intervention during text generation, that lead to quality degradation and increased computational overhead. To mitigate those limitations, we propose LLMSafeGuard, a lightweight framework to safeguard LLM text generation in real-time. LLMSafeGuard integrates an external validator into the beam search algorithm during decoding, rejecting candidates that violate safety constraints while allowing valid ones to proceed. We introduce a similarity based validation approach, simplifying constraint introduction and eliminating the need for control model training. Additionally, LLMSafeGuard employs a context-wise timing selection strategy, intervening LLMs only when necessary. We evaluate LLMSafeGuard on two tasks, detoxification and copyright safeguarding, and demonstrate its superior performance over SOTA baselines. For instance, LLMSafeGuard reduces the average toxic score of. LLM output by 29.7% compared to the best baseline meanwhile preserving similar linguistic quality as natural output in detoxification task. Similarly, in the copyright task, LLMSafeGuard decreases the Longest Common Subsequence (LCS) by 56.2% compared to baselines. Moreover, our context-wise timing selection strategy reduces inference time by at least 24% meanwhile maintaining comparable effectiveness as validating each time step. LLMSafeGuard also offers tunable parameters to balance its effectiveness and efficiency.
翻訳日:2024-05-03 11:27:18 公開日:2024-05-01
# Espresso: テキスト・画像モデルにおけるロバストな概念フィルタリング

Espresso: Robust Concept Filtering in Text-to-Image Models ( http://arxiv.org/abs/2404.19227v2 )

ライセンス: Link先を確認
Anudeep Das, Vasisht Duddu, Rui Zhang, N. Asokan, (参考訳) 拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、与えられたテキスト・プロンプトに対して高忠実な画像を生成する。 それらはインターネットから取り除かれた大規模なデータセットでトレーニングされており、受け入れがたい概念(著作権侵害や安全でない)を含んでいる可能性がある。 トレーニングデータにおける受け入れ難い概念をフィルタリングした後のT2Iモデルのリトレーニングは非効率であり、実用性は低下する。 したがって、許容できない概念を排除し、許容可能な概念を有効に保存し、敵のプロンプトによる回避に対して堅牢な概念除去技術(CRT)が必要である。 以前のフィルタリングと微調整のCRTはいずれもこれらの要件を同時に満たしていない。 本稿では,Contrastive Language-Image Pre-Training (CLIP) に基づく最初のロバストな概念フィルタであるEspressoを紹介する。 これは、生成した画像の埋め込みを、ジョイントテキストイメージの埋め込み空間における受け入れがたい概念と許容できる概念を接続するベクトルに投影することで、受け入れがたい概念を識別する。 これにより、許容される概念の方向において、このベクトルに沿ってのみノイズを追加する敵を制限することによって、堅牢性を保証する。 さらに微調整されたエスプレッソは、許容可能な概念と許容できない概念の埋め込みを分離すると同時に、イメージ埋め込みとのペアリングを保ち、有効性と有用性の両方を保証する。 Espressoを11種類の概念で評価し,有効性(許容できない概念に対するCLIPの精度〜5%),実用性(許容可能な概念に対するCLIPの正常化スコア~93%),堅牢性(許容できない概念に対する敵対的プロンプトに対するCLIPの精度〜4%)を示す。 最後に,Espressoの対向的プロンプトに対するロバスト性に関する理論的境界,および経験的解析について述べる。

Diffusion-based text-to-image (T2I) models generate high-fidelity images for given textual prompts. They are trained on large datasets scraped from the Internet, potentially containing unacceptable concepts (e.g., copyright infringing or unsafe). Retraining T2I models after filtering out unacceptable concepts in the training data is inefficient and degrades utility. Hence, there is a need for concept removal techniques (CRTs) which are effective in removing unacceptable concepts, utility-preserving on acceptable concepts, and robust against evasion with adversarial prompts. None of the prior filtering and fine-tuning CRTs satisfy all these requirements simultaneously. We introduce Espresso, the first robust concept filter based on Contrastive Language-Image Pre-Training (CLIP). It identifies unacceptable concepts by projecting the generated image's embedding onto the vector connecting unacceptable and acceptable concepts in the joint text-image embedding space. This ensures robustness by restricting the adversary to adding noise only along this vector, in the direction of the acceptable concept. Further fine-tuning Espresso to separate embeddings of acceptable and unacceptable concepts, while preserving their pairing with image embeddings, ensures both effectiveness and utility. We evaluate Espresso on eleven concepts to show that it is effective (~5% CLIP accuracy on unacceptable concepts), utility-preserving (~93% normalized CLIP score on acceptable concepts), and robust (~4% CLIP accuracy on adversarial prompts for unacceptable concepts). Finally, we present theoretical bounds for the certified robustness of Espresso against adversarial prompts, and an empirical analysis.
翻訳日:2024-05-03 11:27:18 公開日:2024-05-01
# Binscatterについて

On Binscatter ( http://arxiv.org/abs/1902.09608v5 )

ライセンス: Link先を確認
Matias D. Cattaneo, Richard K. Crump, Max H. Farrell, Yingjie Feng, (参考訳) Binscatterは、二変量関係を可視化し、非公式な仕様テストを実行する一般的な方法である。 本研究では,本手法の特性を公式に研究し,拡張された可視化・エコノメトリ・ビンスキャッタツールを開発した。 条件付き手段を最適バイニングで推定し、不確実性を定量化する。 また,共変量調整に関する方法論的問題にも注目する。 提案手法を用いて2つのアプリケーションを再検討し, 従来の非公式なbinscatter法と比較して, かなり異なる結果を得た。 Python、R、Staの汎用ソフトウェアが提供されている。 我々の技術は非パラメトリック分割に基づく推定文献に独立した関心を持っている。

Binscatter is a popular method for visualizing bivariate relationships and conducting informal specification testing. We study the properties of this method formally and develop enhanced visualization and econometric binscatter tools. These include estimating conditional means with optimal binning and quantifying uncertainty. We also highlight a methodological problem related to covariate adjustment that can yield incorrect conclusions. We revisit two applications using our methodology and find substantially different results relative to those obtained using prior informal binscatter methods. General purpose software in Python, R, and Stata is provided. Our technical work is of independent interest for the nonparametric partition-based estimation literature.
翻訳日:2024-05-02 20:57:20 公開日:2024-05-01
# Pit30M: 自動運転車時代のグローバルローカライゼーションのベンチマーク

Pit30M: A Benchmark for Global Localization in the Age of Self-Driving Cars ( http://arxiv.org/abs/2012.12437v2 )

ライセンス: Link先を確認
Julieta Martinez, Sasha Doubov, Jack Fan, Ioan Andrei Bârsan, Shenlong Wang, Gellért Máttyus, Raquel Urtasun, (参考訳) 我々は、自動運転車の文脈において、検索ベースのローカライゼーションアプローチが十分であるかどうかを理解することに興味を持っている。 この目標に向けて、3000万フレームを超える新しいイメージとLiDARデータセットであるPit30Mを紹介します。 Pit30Mは様々な条件(季節、天気、日時、交通量)で捕獲され、正確な位置決めの真実を提供する。 また、過去の気象や天文学的なデータに加えて、画像やLiDARセマンティックセマンティックセグメンテーションをオクルージョンのプロキシ尺度として自動的にアノテートします。 我々は、画像とLiDAR検索のための既存の複数の手法をベンチマークし、その過程で、最先端技術と競合する単純な、効果的な畳み込みネットワークベースのLiDAR検索手法を導入する。 我々の研究は、初めて、都市規模でのサブメートル検索に基づくローカライゼーションのベンチマークを提供する。 データセット、Python SDK、センサー、キャリブレーション、メタデータに関する詳細な情報は、プロジェクトのWebサイトで公開されている。

We are interested in understanding whether retrieval-based localization approaches are good enough in the context of self-driving vehicles. Towards this goal, we introduce Pit30M, a new image and LiDAR dataset with over 30 million frames, which is 10 to 100 times larger than those used in previous work. Pit30M is captured under diverse conditions (i.e., season, weather, time of the day, traffic), and provides accurate localization ground truth. We also automatically annotate our dataset with historical weather and astronomical data, as well as with image and LiDAR semantic segmentation as a proxy measure for occlusion. We benchmark multiple existing methods for image and LiDAR retrieval and, in the process, introduce a simple, yet effective convolutional network-based LiDAR retrieval method that is competitive with the state of the art. Our work provides, for the first time, a benchmark for sub-metre retrieval-based localization at city scale. The dataset, its Python SDK, as well as more information about the sensors, calibration, and metadata, are available on the project website: https://pit30m.github.io/
翻訳日:2024-05-02 20:57:20 公開日:2024-05-01
# GANにおける二重発光と他の補間現象

Double Descent and Other Interpolation Phenomena in GANs ( http://arxiv.org/abs/2106.04003v2 )

ライセンス: Link先を確認
Lorenzo Luzi, Yehuda Dar, Richard Baraniuk, (参考訳) 本稿では,学習データを補間可能なGAN(Generative Adversarial Network)の過度パラメータ化について検討する。 オーバーパラメータ化により、一般化性能が向上し、トレーニングプロセスが高速化されることを示す。 一般化誤差を潜在空間次元の関数として検討し,学習条件に応じて2つの主な挙動を同定する。 まず、計量や$f$-divergenceを最小化して分布を学習する過パラメータ生成モデルは、一般化誤差において二重降下を示さないことを示し、特に、補間解は同じ一般化誤差を達成する。 第2に,実出力サンプルと組み合わせて一対の合成(雑音)入力を利用するGANのための新しい擬似教師付き学習手法を開発する。 擬似教師設定は一般化誤差の二重降下(場合によっては三重降下)を示す。 擬似スーパービジョンと過パラメータ化(すなわち、過度に大きい潜在空間次元)を組み合わせることで、擬似スーパービジョンを伴わずに、あるいは、一般化性能を上回りながら、トレーニングを加速する。 解析は主に線形モデルに焦点をあてるが、非線形多層GANの一般化に重要な洞察を与える。

We study overparameterization in generative adversarial networks (GANs) that can interpolate the training data. We show that overparameterization can improve generalization performance and accelerate the training process. We study the generalization error as a function of latent space dimension and identify two main behaviors, depending on the learning setting. First, we show that overparameterized generative models that learn distributions by minimizing a metric or $f$-divergence do not exhibit double descent in generalization errors; specifically, all the interpolating solutions achieve the same generalization error. Second, we develop a novel pseudo-supervised learning approach for GANs where the training utilizes pairs of fabricated (noise) inputs in conjunction with real output samples. Our pseudo-supervised setting exhibits double descent (and in some cases, triple descent) of generalization errors. We combine pseudo-supervision with overparameterization (i.e., overly large latent space dimension) to accelerate training while matching or even surpassing generalization performance without pseudo-supervision. While our analysis focuses mostly on linear models, we also apply important insights for improving generalization of nonlinear, multilayer GANs.
翻訳日:2024-05-02 20:57:20 公開日:2024-05-01
# SoK: Rowhammer氏、コモディティオペレーティングシステムについて語る

SoK: Rowhammer on Commodity Operating Systems ( http://arxiv.org/abs/2201.02986v3 )

ライセンス: Link先を確認
Zhi Zhang, Decheng Chen, Jiahao Qi, Yueqiang Cheng, Shijie Jiang, Yiyang Lin, Yansong Gao, Surya Nepal, Yi Zou, Jiliang Zhang, Yang Xiang, (参考訳) ローハンマーは、システムセキュリティに深刻な影響をもたらすため、過去数年間、学術と産業の両方から多くの注目を集めてきた。 2014年の最初の包括的研究以来、ソフトウェア機密性、完全性、可用性を損なうために、動的ランダムアクセスメモリ(DRAM)ベースのコモディティシステムに対して、多くのローハンマー攻撃が実証されてきた。 そのため、レガシー(例えばDDR3)または最近のDRAM(例えばDDR4)のコモディティシステムに対するローハンマー攻撃を緩和するために、多くのソフトウェアディフェンスが提案されている。 さらに、業界からの複数のハードウェアディフェンス(例:Target Row Refresh)が最近のDRAMにデプロイされ、ローハマーを排除し、プロダクションディフェンスに分類しています。 本稿では,DRAMをベースとした商品システムに着目し,ローハマー攻撃と防衛をシステム化する。 特に,ローハマー攻撃が商品システムにどのように影響するかを示す統一的な枠組みを確立した。 このフレームワークでは、既存の攻撃を特徴付け、まだ探索されていない新たな攻撃ベクトルに光を当てる。 さらに、このフレームワークを活用して、ソフトウェアとプロダクションの防衛を分類し、主要な防衛戦略を一般化し、潜在的な防衛戦略が特定される主要な制限を要約します。

Rowhammer has drawn much attention from both academia and industry in the past years as rowhammer exploitation poses severe consequences to system security. Since the first comprehensive study of rowhammer in 2014, a number of rowhammer attacks have been demonstrated against dynamic random access memory (DRAM)-based commodity systems to break software confidentiality, integrity and availability. Accordingly, numerous software defenses have been proposed to mitigate rowhammer attacks on commodity systems of either legacy (e.g., DDR3) or recent DRAM (e.g., DDR4). Besides, multiple hardware defenses (e.g., Target Row Refresh) from the industry have been deployed into recent DRAM to eliminate rowhammer, which we categorize as production defenses. In this paper, we systematize rowhammer attacks and defenses with a focus on DRAM-based commodity systems. Particularly, we have established a unified framework demonstrating how a rowhammer attack affects a commodity system. With the framework, we characterize existing attacks, shedding light on new attack vectors that have not yet been explored. We further leverage the framework to categorize software and production defenses, generalize their key defense strategies and summarize their key limitations, from which potential defense strategies are identified.
翻訳日:2024-05-02 20:57:20 公開日:2024-05-01
# ODBO:直接タンパク質進化のための検索スペースプレスクリーニングによるベイズ最適化

ODBO: Bayesian Optimization with Search Space Prescreening for Directed Protein Evolution ( http://arxiv.org/abs/2205.09548v6 )

ライセンス: Link先を確認
Lixue Cheng, Ziyi Yang, Changyu Hsieh, Benben Liao, Shengyu Zhang, (参考訳) ダイレクト進化(Directed Evolution)は、タンパク質工学において、触媒活性や特定の標的への親和性などの特定の性質を最適化する配列を探索するために、変異原性とスクリーニングを反復的に交互に交互に交互に行うことによって、自然選択の過程を模倣する多用途技術である。 しかし、可能なタンパク質の空間は実験室で徹底的に探索するには大きすぎるため、機能的なタンパク質は広大な配列空間では不足している。 機械学習(ML)アプローチは、基礎となる物理、化学、生物学的経路の詳細なモデルを構築することなく、タンパク質配列を関数にマッピングすることを学ぶことによって、直接進化を加速することができる。 これらのML手法が持つ大きな可能性にもかかわらず、ターゲット関数に最も適したシーケンスを特定するという深刻な課題に直面している。 これらの失敗は、タンパク質配列の高次元的特徴表現と非効率的な探索法を採用するという一般的な慣習に起因していると考えられる。 これらの課題に対処するために,新規な低次元タンパク質エンコーディング戦略と,検索空間事前スクリーニングによるベイズ最適化を併用した,タンパク質指向進化のための効率的な設計指向クローズループ最適化フレームワークODBOを提案する。 さらに,MLモデルをトレーニングするための実験サンプルの数を最小化するために,初期サンプル選択戦略を設計する。 本研究は, タンパク質指向進化実験を4回実施し, 興味のある変異を見出すためのフレームワークの能力を実証した。 ODBOフレームワークは、指向する進化の実験的コストと時間的コストを大幅に削減し、より広い文脈で適応的な実験設計のための強力なツールとしてさらに一般化できることを期待している。

Directed evolution is a versatile technique in protein engineering that mimics the process of natural selection by iteratively alternating between mutagenesis and screening in order to search for sequences that optimize a given property of interest, such as catalytic activity and binding affinity to a specified target. However, the space of possible proteins is too large to search exhaustively in the laboratory, and functional proteins are scarce in the vast sequence space. Machine learning (ML) approaches can accelerate directed evolution by learning to map protein sequences to functions without building a detailed model of the underlying physics, chemistry and biological pathways. Despite the great potentials held by these ML methods, they encounter severe challenges in identifying the most suitable sequences for a targeted function. These failures can be attributed to the common practice of adopting a high-dimensional feature representation for protein sequences and inefficient search methods. To address these issues, we propose an efficient, experimental design-oriented closed-loop optimization framework for protein directed evolution, termed ODBO, which employs a combination of novel low-dimensional protein encoding strategy and Bayesian optimization enhanced with search space prescreening via outlier detection. We further design an initial sample selection strategy to minimize the number of experimental samples for training ML models. We conduct and report four protein directed evolution experiments that substantiate the capability of the proposed framework for finding of the variants with properties of interest. We expect the ODBO framework to greatly reduce the experimental cost and time cost of directed evolution, and can be further generalized as a powerful tool for adaptive experimental design in a broader context.
翻訳日:2024-05-02 20:57:20 公開日:2024-05-01
# ひずみモアレ格子における半古典的量子化条件

Semiclassical quantization conditions in strained moiré lattices ( http://arxiv.org/abs/2206.03349v4 )

ライセンス: Link先を確認
Simon Becker, Jens Wittsten, (参考訳) この記事では、スカラーシンボルに対するボーア・ソマーフェルト則を、井戸の底部で正確に結合する固有値を持つ行列値シンボルに対して有意に一般化する。 適用例として,最近Timmel と Mele が導入したモデルにおいて,ひずみした2次元ハニカム格子などのモワールヘテロ構造における約平らなバンドの存在について検討した。

In this article we generalize the Bohr-Sommerfeld rule for scalar symbols at a potential well to matrix-valued symbols having eigenvalues that may coalesce precisely at the bottom of the well. As an application, we study the existence of approximately flat bands in moir\'e heterostructures such as strained two-dimensional honeycomb lattices in a model recently introduced by Timmel and Mele.
翻訳日:2024-05-02 20:57:20 公開日:2024-05-01
# フィードフォワードニューラルネットワークモデル選択のための統計的モデリング手法

A Statistical-Modelling Approach to Feedforward Neural Network Model Selection ( http://arxiv.org/abs/2207.04248v5 )

ライセンス: Link先を確認
Andrew McInerney, Kevin Burke, (参考訳) フィードフォワードニューラルネットワーク(FNN)は、重み付け和と非線形関数の組み合わせによって共変体がモデルに入る非線形回帰モデルと見なすことができる。 これらのモデルは統計モデリングで使用されるアプローチといくつかの類似性があるが、ほとんどのニューラルネットワーク研究は統計学以外の分野で行われている。 この結果、統計に基づく方法論が欠如しており、特にモデルパーシモニーにはほとんど重点を置いていない。 入力層構造の決定は変数選択と類似し、隠された層の構造はモデルの複雑さに関連する。 実際に、ニューラルネットワークモデルの選択は、アウトオブサンプルのパフォーマンスを使用してモデルを比較することで行われることが多い。 しかし、それとは対照的に、関連する可能性関数の構築は、情報基準に基づく変数とアーキテクチャの選択への扉を開く。 入力ノード選択と隠れノード選択の両方を行う新しいモデル選択法を,FNNのためのベイズ情報基準(BIC)を用いて提案する。 モデル選択目的関数として、サンプル外性能よりもBICを選択することは、サンプル外性能を最適に達成しつつ、真のモデルを回復する確率を増大させる。 シミュレーション研究を用いて提案手法の評価と正当化を行い,実データへの適用について検討した。

Feedforward neural networks (FNNs) can be viewed as non-linear regression models, where covariates enter the model through a combination of weighted summations and non-linear functions. Although these models have some similarities to the approaches used within statistical modelling, the majority of neural network research has been conducted outside of the field of statistics. This has resulted in a lack of statistically-based methodology, and, in particular, there has been little emphasis on model parsimony. Determining the input layer structure is analogous to variable selection, while the structure for the hidden layer relates to model complexity. In practice, neural network model selection is often carried out by comparing models using out-of-sample performance. However, in contrast, the construction of an associated likelihood function opens the door to information-criteria-based variable and architecture selection. A novel model selection method, which performs both input- and hidden-node selection, is proposed using the Bayesian information criterion (BIC) for FNNs. The choice of BIC over out-of-sample performance as the model selection objective function leads to an increased probability of recovering the true model, while parsimoniously achieving favourable out-of-sample performance. Simulation studies are used to evaluate and justify the proposed method, and applications on real data are investigated.
翻訳日:2024-05-02 20:57:20 公開日:2024-05-01
# 深層強化学習における教師なし表現学習

Unsupervised Representation Learning in Deep Reinforcement Learning: A Review ( http://arxiv.org/abs/2208.14226v3 )

ライセンス: Link先を確認
Nicolò Botteghi, Mannes Poel, Christoph Brune, (参考訳) 本稿では,測定データの抽象表現を深層強化学習(DRL)の文脈で学習する問題に対処する。 データはしばしば曖昧で高次元で解釈に複雑であるが、多くの力学系は低次元状態変数の集合によって効果的に記述できる。 これらの状態変数をデータから発見することは、重要な側面である。 i)DRL法のデータの効率性、堅牢性、一般化を改善すること。 二 次元の呪いに対処すること、 三 ブラックボックスDRLに解釈可能性及び洞察をもたらすこと。 このレビューでは、世界の表現を学習するための主要なDeep Learningツールを説明し、方法論と原則の体系的なビューを提供し、アプリケーション、ベンチマーク、評価戦略を要約し、オープンな課題と今後の方向性について議論することで、DRLにおける教師なし表現学習の包括的で完全な概要を提供する。

This review addresses the problem of learning abstract representations of the measurement data in the context of Deep Reinforcement Learning (DRL). While the data are often ambiguous, high-dimensional, and complex to interpret, many dynamical systems can be effectively described by a low-dimensional set of state variables. Discovering these state variables from the data is a crucial aspect for (i) improving the data efficiency, robustness, and generalization of DRL methods, (ii) tackling the curse of dimensionality, and (iii) bringing interpretability and insights into black-box DRL. This review provides a comprehensive and complete overview of unsupervised representation learning in DRL by describing the main Deep Learning tools used for learning representations of the world, providing a systematic view of the method and principles, summarizing applications, benchmarks and evaluation strategies, and discussing open challenges and future directions.
翻訳日:2024-05-02 20:50:17 公開日:2024-05-01
# ブラリング拡散モデル

Blurring Diffusion Models ( http://arxiv.org/abs/2209.05557v3 )

ライセンス: Link先を確認
Emiel Hoogeboom, Tim Salimans, (参考訳) 近年、Rissanen et al , (2022) は等方的ガウス拡散の代替として、熱散逸に基づく生成的モデリングのための新しいタイプの拡散過程を提示している。 ここでは,非等方性雑音を持つガウス拡散過程を通じて,ボケリングが等価に定義されることを示す。 この接続において, 逆熱散逸と脱ノイズ拡散のギャップを埋め, このモデル選択から生じる誘導バイアスに光を当てる。 最後に,標準ガウス微分拡散モデルと逆熱散逸モデルの両方の長所を提供する拡散モデルの一般化クラスを提案し,これをブラリング拡散モデル(Blurring Diffusion Models)と呼ぶ。

Recently, Rissanen et al., (2022) have presented a new type of diffusion process for generative modeling based on heat dissipation, or blurring, as an alternative to isotropic Gaussian diffusion. Here, we show that blurring can equivalently be defined through a Gaussian diffusion process with non-isotropic noise. In making this connection, we bridge the gap between inverse heat dissipation and denoising diffusion, and we shed light on the inductive bias that results from this modeling choice. Finally, we propose a generalized class of diffusion models that offers the best of both standard Gaussian denoising diffusion and inverse heat dissipation, which we call Blurring Diffusion Models.
翻訳日:2024-05-02 20:50:17 公開日:2024-05-01
# コンピュータビジョン研究論文のメディア考古学を探求する

Attention is All They Need: Exploring the Media Archaeology of the Computer Vision Research Paper ( http://arxiv.org/abs/2209.11200v2 )

ライセンス: Link先を確認
Samuel Goree, Gabriel Appleby, David Crandall, Norman Su, (参考訳) 研究論文は、テキストドキュメントに加えて、研究者がコミュニケーションするデザインされたインターフェースである。 近年、急速な成長により、多くのコンピューティング分野においてそのインターフェースが変化している。 本研究では,この成長がメディア考古学的観点から,研究論文における数字や表の変化を通じて,その影響について考察する。 特に、深層学習革命が学界に前例のない成長をもたらしたため、コンピュータビジョンにおけるこれらの変化を過去10年間に調査した。 我々は、コンピュータービジョン、グラフィック、可視化を対象とするベテラン研究者とのインタビューを通じて、調査を根拠にしている。 本分析は, 研究論文の要素が広告, 測定, 拡散にどのように貢献するか, 研究の注目経済に焦点をあてる。 この研究を通じて、研究論文の発見・読解・執筆ツールを含む、研究論文自体と大規模社会技術研究出版システムの両方の設計に関する今後の議論の動機付けを目指す。

Research papers, in addition to textual documents, are a designed interface through which researchers communicate. Recently, rapid growth has transformed that interface in many fields of computing. In this work, we examine the effects of this growth from a media archaeology perspective, through the changes to figures and tables in research papers. Specifically, we study these changes in computer vision over the past decade, as the deep learning revolution has driven unprecedented growth in the discipline. We ground our investigation through interviews with veteran researchers spanning computer vision, graphics and visualization. Our analysis focuses on the research attention economy: how research paper elements contribute towards advertising, measuring and disseminating an increasingly commodified ``contribution.'' Through this work, we seek to motivate future discussion surrounding the design of both the research paper itself as well as the larger sociotechnical research publishing system, including tools for finding, reading and writing research papers.
翻訳日:2024-05-02 20:50:17 公開日:2024-05-01
# ニューラルネットワークを用いた資源を考慮した異種フェデレーション学習

Resource-Aware Heterogeneous Federated Learning using Neural Architecture Search ( http://arxiv.org/abs/2211.05716v2 )

ライセンス: Link先を確認
Sixing Yu, J. Pablo Muñoz, Ali Jannesari, (参考訳) フェデレートラーニング(FL)は、分散およびプライバシ保護設定におけるAI/MLモデルのトレーニングに広く使用されている。 FLシステムの参加エッジデバイスは、通常、非独立で同一に分散されたプライベートデータ(Non-IID)と不均一に分散された計算資源を含む。 不均一なフェデレーションネットワークにおいて、AI/MLモデルを最適化しながら、ユーザのデータのプライバシを保存するには、データとシステム/リソースの不均一性に対処する必要があります。 これらの課題に対処するため,資源対応フェデレートラーニング(RaFL)を提案する。 RaFLは、Neural Architecture Search (NAS)を使用してエッジデバイスにリソースを意識した特殊なモデルを割り当て、知識抽出と融合による異種モデルアーキテクチャのデプロイメントを可能にする。 NASとFLを組み合わせることで、リソースの異なるエッジデバイスに対して、オンデマンドでカスタマイズされたモデルデプロイメントが可能になる。 さらに,分散学習結果の集約が可能なマルチモデルアーキテクチャ融合方式を提案する。 その結果,SoTAに比べ,RaFLの資源効率は優れていた。

Federated Learning (FL) is extensively used to train AI/ML models in distributed and privacy-preserving settings. Participant edge devices in FL systems typically contain non-independent and identically distributed (Non-IID) private data and unevenly distributed computational resources. Preserving user data privacy while optimizing AI/ML models in a heterogeneous federated network requires us to address data and system/resource heterogeneity. To address these challenges, we propose Resource-aware Federated Learning (RaFL). RaFL allocates resource-aware specialized models to edge devices using Neural Architecture Search (NAS) and allows heterogeneous model architecture deployment by knowledge extraction and fusion. Combining NAS and FL enables on-demand customized model deployment for resource-diverse edge devices. Furthermore, we propose a multi-model architecture fusion scheme allowing the aggregation of the distributed learning results. Results demonstrate RaFL's superior resource efficiency compared to SoTA.
翻訳日:2024-05-02 20:50:17 公開日:2024-05-01
# SeaTurtleID2022: 信頼性の高いウミガメ再同定のための長期データセット

SeaTurtleID2022: A long-span dataset for reliable sea turtle re-identification ( http://arxiv.org/abs/2211.10307v4 )

ライセンス: Link先を確認
Lukáš Adam, Vojtěch Čermák, Kostas Papafitsoros, Lukáš Picek, (参考訳) 本稿では,野生で撮影されたウミガメの写真を収めた最初の大規模長期データセットについて紹介する: \href{https://www.kaggle.com/datasets/wildlifedatasets/seaturtleid2022}{SeaTurtleID2022}。 このデータセットには、13年以内に収集された438個体の8729枚の写真が含まれており、動物の再同定のための最長のデータセットとなっている。 すべての写真には、例えば、アイデンティティ、出会うタイムスタンプ、身体部分のセグメンテーションマスクなど、さまざまなアノテーションが含まれている。 標準的な「ランダム」分割の代わりに、データセットは2つの現実的で生態学的に動機づけられた分割を可能にします。 i) 異なる日/年毎のトレーニング、検証、テストデータを含む、textit{time-aware closed-set} (ii)テストセットと検証セットに新しい未知の個人を持つ、textit{time-aware open-set}。 乱数分割が性能過大評価につながるため、再同定手法のベンチマークには時間認識分割が不可欠であることを示す。 さらに、各種本体部に対するベースラインインスタンスセグメンテーション及び再識別性能を提供する。 最後に,ウミガメ再同定のためのエンドツーエンドシステムを提案し,評価した。 ヘッドインスタンスセグメンテーションのためのHybrid Task Cascadeに基づくシステムとArcFaceで訓練した特徴抽出器は86.8\%の精度を実現した。

This paper introduces the first public large-scale, long-span dataset with sea turtle photographs captured in the wild -- \href{https://www.kaggle.com/datasets/wildlifedatasets/seaturtleid2022}{SeaTurtleID2022}. The dataset contains 8729 photographs of 438 unique individuals collected within 13 years, making it the longest-spanned dataset for animal re-identification. All photographs include various annotations, e.g., identity, encounter timestamp, and body parts segmentation masks. Instead of standard "random" splits, the dataset allows for two realistic and ecologically motivated splits: (i) a \textit{time-aware closed-set} with training, validation, and test data from different days/years, and (ii) a \textit{time-aware open-set} with new unknown individuals in test and validation sets. We show that time-aware splits are essential for benchmarking re-identification methods, as random splits lead to performance overestimation. Furthermore, a baseline instance segmentation and re-identification performance over various body parts is provided. Finally, an end-to-end system for sea turtle re-identification is proposed and evaluated. The proposed system based on Hybrid Task Cascade for head instance segmentation and ArcFace-trained feature-extractor achieved an accuracy of 86.8\%.
翻訳日:2024-05-02 20:50:17 公開日:2024-05-01
# ソーシャルレコメンダシステムのためのグラフニューラルネットワークの検討

A Survey of Graph Neural Networks for Social Recommender Systems ( http://arxiv.org/abs/2212.04481v3 )

ライセンス: Link先を確認
Kartik Sharma, Yeon-Chang Lee, Sivagami Nambi, Aditya Salian, Shlok Shah, Sang-Wook Kim, Srijan Kumar, (参考訳) ソーシャルレコメンデーションシステム(SocialRS)は、アイテムレコメンデーションを生成するタスクにおいて、ユーザとイテムのインタラクションとユーザ間のソーシャル関係を同時に活用する。 さらに, ソーシャル・リレーションシップの活用は, ホモフィリとソーシャル・インフルエンスの影響により, ユーザの嗜好を理解する上で, 明らかに有効である。 そのため、SocialRSはますます注目を集めている。 特に、グラフニューラルネットワーク(GNN)の進歩により、近年多くのGNNベースのSocialRS手法が開発されている。 そこで我々は,GNNを基盤としたSocialRSに関する文献を包括的かつ体系的にレビューする。 本調査では,PRISMAフレームワークに従って2151の論文を注釈付けし,まずGNNベースのSocialRSに関する84の論文を同定した。 1)入力分類学は入力型表記の5つのグループと入力型表記の7つのグループを含み、(2)アーキテクチャ分類学はGNNエンコーダ表記の8つのグループとデコーダ表記の2つのグループと損失関数表記の12つのグループを含む。 我々は,GNNに基づくSocialRS手法を分類学のいくつかのカテゴリに分類し,その詳細を説明する。 さらに、GNNベースのSocialRS手法の評価に広く用いられているベンチマークデータセットとメトリクスを要約する。 最後に,今後の研究の方向性を示すことで,この調査を結論づける。 GitHubリポジトリには、ドキュメントのキュレートされたリストがhttps://github.com/claws-lab/awesome-GNN-social-recsysで公開されている。

Social recommender systems (SocialRS) simultaneously leverage the user-to-item interactions as well as the user-to-user social relations for the task of generating item recommendations to users. Additionally exploiting social relations is clearly effective in understanding users' tastes due to the effects of homophily and social influence. For this reason, SocialRS has increasingly attracted attention. In particular, with the advance of graph neural networks (GNN), many GNN-based SocialRS methods have been developed recently. Therefore, we conduct a comprehensive and systematic review of the literature on GNN-based SocialRS. In this survey, we first identify 84 papers on GNN-based SocialRS after annotating 2151 papers by following the PRISMA framework (preferred reporting items for systematic reviews and meta-analyses). Then, we comprehensively review them in terms of their inputs and architectures to propose a novel taxonomy: (1) input taxonomy includes 5 groups of input type notations and 7 groups of input representation notations; (2) architecture taxonomy includes 8 groups of GNN encoder notations, 2 groups of decoder notations, and 12 groups of loss function notations. We classify the GNN-based SocialRS methods into several categories as per the taxonomy and describe their details. Furthermore, we summarize benchmark datasets and metrics widely used to evaluate the GNN-based SocialRS methods. Finally, we conclude this survey by presenting some future research directions. GitHub repository with the curated list of papers are available at https://github.com/claws-lab/awesome-GNN-social-recsys.
翻訳日:2024-05-02 20:50:17 公開日:2024-05-01
# 統計的推論としての厳密な再正規化群フローの逆

The Inverse of Exact Renormalization Group Flows as Statistical Inference ( http://arxiv.org/abs/2212.11379v2 )

ライセンス: Link先を確認
David S. Berman, Marc S. Klinger, (参考訳) 我々は,関数対流拡散方程式により記述された最適輸送のインスタンス化として,Exact Renormalization Group (ERG) の視点に基づいて構築する。 我々はベイズ統計推論の仲介を通してERGを理解するための新しい情報理論的視点を提供する。 この接続は、ベイズ法則から導かれる積分微分方程式を解く確率分布の1つのパラメータ列の形でベイズ推論を符号化する動的ベイズ推論スキームによって促進される。 本稿では,力学ベイズ方程式が,ベイズ拡散をダブする拡散方程式と等価であることを示す。 ベイズ拡散を定義する特徴を同定し、ERGを定義する特徴にマッピングし、再正規化を統計的推論の逆として理解する方法を概説する辞書を得る。

We build on the view of the Exact Renormalization Group (ERG) as an instantiation of Optimal Transport described by a functional convection-diffusion equation. We provide a new information theoretic perspective for understanding the ERG through the intermediary of Bayesian Statistical Inference. This connection is facilitated by the Dynamical Bayesian Inference scheme, which encodes Bayesian inference in the form of a one parameter family of probability distributions solving an integro-differential equation derived from Bayes' law. In this note, we demonstrate how the Dynamical Bayesian Inference equation is, itself, equivalent to a diffusion equation which we dub Bayesian Diffusion. Identifying the features that define Bayesian Diffusion, and mapping them onto the features that define the ERG, we obtain a dictionary outlining how renormalization can be understood as the inverse of statistical inference.
翻訳日:2024-05-02 20:50:17 公開日:2024-05-01
# DSI2I:未ペア画像から画像への変換のためのDenseスタイル

DSI2I: Dense Style for Unpaired Image-to-Image Translation ( http://arxiv.org/abs/2212.13253v3 )

ライセンス: Link先を確認
Baran Ozaydin, Tong Zhang, Sabine Süsstrunk, Mathieu Salzmann, (参考訳) Inpaired exemplar-based image-to-image (UEI2I) は、ソースイメージをターゲット画像領域に変換することを目的としている。 既存のUEI2Iメソッドは、画像ごとに1つのベクトルを使用してスタイルを表現するか、オブジェクトごとに1つのスタイルベクトルを定義するためにセマンティックな管理に依存している。 対照的に、我々はスタイルを高密度な特徴写像として表現し、外部のセマンティック情報を必要とせずに、よりきめ細かなソース画像への転送を可能にする。 そして、認識的および敵対的損失に頼って、密集したスタイルとコンテンツ表現を歪めます。 ソース内容を例題スタイルでスタイリングするために、教師なしのドメイン間セマンティック対応を抽出し、例題スタイルを例題内容にワープする。 そこで本研究では,標準メトリクスを用いた4つのデータセット上での手法の有効性を,クラスレベルでのスタイル類似度を計測する局所化スタイルメトリクスとともに示す。 以上の結果から,本手法による翻訳は,より多様であり,資料内容の保存性が向上し,最先端の手法と比較すると,先例に近づいたことが示唆された。 プロジェクトページ:https://github.com/IVRL/dsi2i

Unpaired exemplar-based image-to-image (UEI2I) translation aims to translate a source image to a target image domain with the style of a target image exemplar, without ground-truth input-translation pairs. Existing UEI2I methods represent style using one vector per image or rely on semantic supervision to define one style vector per object. Here, in contrast, we propose to represent style as a dense feature map, allowing for a finer-grained transfer to the source image without requiring any external semantic information. We then rely on perceptual and adversarial losses to disentangle our dense style and content representations. To stylize the source content with the exemplar style, we extract unsupervised cross-domain semantic correspondences and warp the exemplar style to the source content. We demonstrate the effectiveness of our method on four datasets using standard metrics together with a localized style metric we propose, which measures style similarity in a class-wise manner. Our results show that the translations produced by our approach are more diverse, preserve the source content better, and are closer to the exemplars when compared to the state-of-the-art methods. Project page: https://github.com/IVRL/dsi2i
翻訳日:2024-05-02 20:50:17 公開日:2024-05-01
# 劣化条件付き拡散モデルによる実世界のイメージデライニングの再考

Rethinking Real-world Image Deraining via An Unpaired Degradation-Conditioned Diffusion Model ( http://arxiv.org/abs/2301.09430v4 )

ライセンス: Link先を確認
Yiyang Shen, Mingqiang Wei, Yongzhen Wang, Xueyang Fu, Jing Qin, (参考訳) 最近の拡散モデルでは、生成的モデリングタスクに大きな可能性がある。 彼らの成功の一部は、ペア化された大量の合成データに基づいて安定したトレーニングを行う能力に起因している。 しかし、これらのモデルを実世界の画像に適応させることは、2つの面において困難である。 まず、大規模なペア化された実世界のクリーン/レーニーデータセットの収集は不可能であり、通常の条件拡散モデルはトレーニングのためにペア化されたデータに大きく依存する。 第二に、現実世界の雨は通常、様々な未知の降雨タイプを持つ現実世界のシナリオを反映しており、生成的モデリングプロセスにおいて重要な課題となっている。 これらの課題に対処するため,拡散モデルに基づく世界初の実世界のイメージデライン化パラダイムであるRainDiffを提案し,実世界のイメージデライン化のための新しい標準バーとして機能する。 本研究は,複数雨の降雨前処理によって予測される拡散生成過程を通じて所望の出力を洗練させる分解条件拡散モデルを提案することで,その第1の課題に対処する。 大規模な実験により、RainDiffが既存の未熟/半監督手法よりも優れていることが確認され、完全に監督されたいくつかの方法よりも競争上の優位性を示す。

Recent diffusion models have exhibited great potential in generative modeling tasks. Part of their success can be attributed to the ability of training stable on huge sets of paired synthetic data. However, adapting these models to real-world image deraining remains difficult for two aspects. First, collecting a large-scale paired real-world clean/rainy dataset is unavailable while regular conditional diffusion models heavily rely on paired data for training. Second, real-world rain usually reflects real-world scenarios with a variety of unknown rain degradation types, which poses a significant challenge for the generative modeling process. To meet these challenges, we propose RainDiff, the first real-world image deraining paradigm based on diffusion models, serving as a new standard bar for real-world image deraining. We address the first challenge by introducing a stable and non-adversarial unpaired cycle-consistent architecture that can be trained, end-to-end, with only unpaired data for supervision; and the second challenge by proposing a degradation-conditioned diffusion model that refines the desired output via a diffusive generative process conditioned by learned priors of multiple rain degradations. Extensive experiments confirm the superiority of our RainDiff over existing unpaired/semi-supervised methods and show its competitive advantages over several fully-supervised ones.
翻訳日:2024-05-02 20:50:17 公開日:2024-05-01
# 一般ネットワークにおける未知の個人効果による影響の最大化

Influence Maximization with Unknown Individual Effect on General Network ( http://arxiv.org/abs/2301.12226v2 )

ライセンス: Link先を確認
Xinyan Su, Zhiheng Zhang, Jiyan Qiu, Jun Li, (参考訳) ネットワークに広がる情報を最大化するためのシードセットの識別は、インフルエンス・最大化(IM)と呼ばれる概念が不可欠である。 エレガントIMアルゴリズムは、各ノードが個々のエフェクトと呼ばれる特定の重みを持つ場合に自然に拡張し、ノードの重要性を測定する。 一般的な文献では、個々の効果はカスケード過程の間に一定であると考えられている。 しかしながら、各ノードの個々の効果は、活性化状態と非活性化状態の出力の違いによって主に評価されるため、この仮定は必ずしも実現不可能であるとは限らない。 さらに、個々の効果は、周辺ノードが提供する環境情報に敏感である。 これらの課題に対処するため、我々は、因果関係の手法を利用して、動的ノード個人効果を持つ一般的なネットワークを含む幅広いシナリオにIMの考察を拡張した。 本稿では,因果影響最大化(CauIM)アルゴリズムの開発を通じてこの問題に対処する。 理論的には、CauIMでは、一般化された影響の広がりの低い境界を示し、ロバスト性解析を提供する。 実証実験により,CauIMの有効性とロバスト性を実証し,新しい加速法を提案する。

The identification of a seed set to maximize information spread in a network is crucial, a concept known as Influence Maximization (IM). Elegant IM algorithms could naturally extend to cases where each node is equipped with specific weight, referred to as individual effect, to measure the node's importance. Prevailing literature has typically assumed that the individual effect remains constant during the cascade process. However, this assumption is not always feasible, as the individual effect of each node is primarily evaluated by the difference between the outputs in the activated and non-activated states, with one of these states always being unobservable after propagation. Moreover, the individual effect is sensitive to the environmental information provided by surrounding nodes. To address these challenges, we extend the consideration of IM to a broader scenario involving general networks with dynamic node individual effects, leveraging causality techniques. In our paper, we address this through the development of a Causal Influence Maximization (CauIM) algorithm. Theoretically, for CauIM, we present the generalized lower bound of influence spread and provide robustness analysis. Empirically, in synthetic and real-world experiments, we demonstrate the effectiveness and robustness of CauIM, along with a novel acceleration technique.
翻訳日:2024-05-02 20:50:17 公開日:2024-05-01
# SpinQ: スケーラブルなスピンキュービットアーキテクチャのためのコンパイル戦略

SpinQ: Compilation strategies for scalable spin-qubit architectures ( http://arxiv.org/abs/2301.13241v2 )

ライセンス: Link先を確認
Nikiforos Paraskevopoulos, Fabio Sebastiano, Carmen G. Almudever, Sebastian Feld, (参考訳) NISQデバイスは厳しい制約を受けているが、ハードウェアとアルゴリズムを意識した量子回路マッピング技術は、アルゴリズムの実行を成功させるために開発されている。 実験装置の不足と小さなサイズのため、スピン量子ビット量子プロセッサのマッピングとコンパイルの実装にはそれほど注意が払われていない。 しかし、その高いスケーラビリティと急速な進歩を踏まえると、そのようなデバイス上でソリューションを探求し始めるのは時期尚早である。 本稿では、共有制御を備えたスケーラブルなクロスバーアーキテクチャのユニークなマッピング課題について論じ、スケーラブルなスピンキュービットアーキテクチャのための最初のネイティブコンパイルフレームワークであるSpinQを紹介する。 SpinQの中核は、コンパイルのスケーラビリティとO(n)計算の複雑さを考慮しつつ、クロスバーのユニークな運用上の制約に対処する統合戦略である。 本研究では,このアーキテクチャ上でのSpinQの性能を評価するために,広範に定義された量子回路をコンパイルし,ゲートオーバヘッド,深さオーバヘッド,推定成功確率といった複数の指標に基づいて奥行き解析を行い,ユニークなマッピングとアーキテクチャインサイトを作成することができた。 最後に、このアーキテクチャにおけるアルゴリズムの成功率を高める新しいマッピング手法を提案し、他のスケーラブルなスピン量子ビットアーキテクチャに対する量子回路マッピングのさらなる研究を促す可能性がある。

Despite NISQ devices being severely constrained, hardware- and algorithm-aware quantum circuit mapping techniques have been developed to enable successful algorithm executions. Not so much attention has been paid to mapping and compilation implementations for spin-qubit quantum processors due to the scarce availability of experimental devices and their small sizes. However, based on their high scalability potential and their rapid progress it is timely to start exploring solutions on such devices. In this work, we discuss the unique mapping challenges of a scalable crossbar architecture with shared control and introduce SpinQ, the first native compilation framework for scalable spin-qubit architectures. At the core of SpinQ is the Integrated Strategy that addresses the unique operational constraints of the crossbar while considering compilation scalability and obtaining a O(n) computational complexity. To evaluate the performance of SpinQ on this novel architecture, we compiled a broad set of well-defined quantum circuits and performed an in-depth analysis based on multiple metrics such as gate overhead, depth overhead, and estimated success probability, which in turn allowed us to create unique mapping and architectural insights. Finally, we propose novel mapping techniques that could increase algorithm success rates on this architecture and potentially inspire further research on quantum circuit mapping for other scalable spin-qubit architectures.
翻訳日:2024-05-02 20:50:17 公開日:2024-05-01
# 合成データ生成のための機械学習: レビュー

Machine Learning for Synthetic Data Generation: A Review ( http://arxiv.org/abs/2302.04062v7 )

ライセンス: Link先を確認
Yingzhou Lu, Minjie Shen, Huazheng Wang, Xiao Wang, Capucine van Rechem, Tianfan Fu, Wenqi Wei, (参考訳) 機械学習はデータに大きく依存するが、現実のアプリケーションは様々なデータ関連の問題に遭遇することが多い。 これには、品質の低いデータ、マシンラーニングモデルの適合性の低いデータポイント、プライバシや安全性、規制に関する懸念によるデータアクセスの困難などが含まれる。 これらの課題を踏まえると、合成データ生成という概念は、現実のデータでは不可能な方法でデータ共有と利用を可能にする、有望な代替手段として現れます。 本稿では,合成データの生成を目的とした機械学習モデルを用いた既存研究の総合的な体系的レビューを行う。 このレビューは、合成データ生成、コンピュータビジョン、スピーチ、自然言語処理、ヘルスケア、ビジネスドメインの応用から始まる様々な視点を網羅している。 さらに、ニューラルネットワークアーキテクチャと深層生成モデルに特に重点を置いて、さまざまな機械学習手法についても検討している。 この論文は、合成データ生成に関するプライバシーと公平性に関する重要な側面についても論じている。 さらに, 本研究は, この新興分野における課題と機会を明らかにし, 今後の研究の道筋を明かすものである。 本稿では, 合成データ生成の複雑さを掘り下げることにより, 知識の発達に寄与し, 合成データ生成におけるさらなる探索を促すことを目的とする。

Machine learning heavily relies on data, but real-world applications often encounter various data-related issues. These include data of poor quality, insufficient data points leading to under-fitting of machine learning models, and difficulties in data access due to concerns surrounding privacy, safety, and regulations. In light of these challenges, the concept of synthetic data generation emerges as a promising alternative that allows for data sharing and utilization in ways that real-world data cannot facilitate. This paper presents a comprehensive systematic review of existing studies that employ machine learning models for the purpose of generating synthetic data. The review encompasses various perspectives, starting with the applications of synthetic data generation, spanning computer vision, speech, natural language processing, healthcare, and business domains. Additionally, it explores different machine learning methods, with particular emphasis on neural network architectures and deep generative models. The paper also addresses the crucial aspects of privacy and fairness concerns related to synthetic data generation. Furthermore, this study identifies the challenges and opportunities prevalent in this emerging field, shedding light on the potential avenues for future research. By delving into the intricacies of synthetic data generation, this paper aims to contribute to the advancement of knowledge and inspire further exploration in synthetic data generation.
翻訳日:2024-05-02 20:50:17 公開日:2024-05-01
# エゴセントリックビデオのための次世代能動物体の予測

Anticipating Next Active Objects for Egocentric Videos ( http://arxiv.org/abs/2302.06358v5 )

ライセンス: Link先を確認
Sanket Thakur, Cigdem Beyan, Pietro Morerio, Vittorio Murino, Alessio Del Bue, (参考訳) 本稿では, 今後次のアクティブな物体の位置を予想する問題に対処し, 何らかのアクションが起こる前に, 接触が起こる可能性のある自我中心の映像クリップについて述べる。 この問題は、観察されたクリップとアクションセグメントがいわゆる「接触時間」セグメントによって分離されるシナリオにおいて、そのようなオブジェクトの位置を推定することを目的としているため、かなり難しい。 過去の手の動きや周囲との相互作用に基づく行動を予測するために,多くの手法が提案されている。 しかし、次の対話可能な物体や、TTCウィンドウにおける人物の動きや視野のドリフトについて、その将来的な位置を調査する試みは行われていない。 我々はこれを次の活動対象(ANACTO)を予測するタスクとして定義する。 そこで本稿では,自己中心型クリップ内の次のアクティブオブジェクトを識別し,特定するトランスフォーマーベースの自己認識フレームワークを提案する。 EpicKitchens-100, EGTEA+, Ego4Dの3つのデータセットでベンチマークを行った。 最初の2つのデータセットに対するアノテーションも提供します。 我々のアプローチは、関連するベースライン手法と比較して最もうまく機能する。 また, 各種条件における提案法およびベースライン法の有効性について, アブレーション研究を行った。 コードとANACTOタスクアノテーションは、論文の受理時に利用可能になる。

This paper addresses the problem of anticipating the next-active-object location in the future, for a given egocentric video clip where the contact might happen, before any action takes place. The problem is considerably hard, as we aim at estimating the position of such objects in a scenario where the observed clip and the action segment are separated by the so-called ``time to contact'' (TTC) segment. Many methods have been proposed to anticipate the action of a person based on previous hand movements and interactions with the surroundings. However, there have been no attempts to investigate the next possible interactable object, and its future location with respect to the first-person's motion and the field-of-view drift during the TTC window. We define this as the task of Anticipating the Next ACTive Object (ANACTO). To this end, we propose a transformer-based self-attention framework to identify and locate the next-active-object in an egocentric clip. We benchmark our method on three datasets: EpicKitchens-100, EGTEA+ and Ego4D. We also provide annotations for the first two datasets. Our approach performs best compared to relevant baseline methods. We also conduct ablation studies to understand the effectiveness of the proposed and baseline methods on varying conditions. Code and ANACTO task annotations will be made available upon paper acceptance.
翻訳日:2024-05-02 20:50:17 公開日:2024-05-01
# DINOISER:ノイズ制御による拡散条件系列学習

DINOISER: Diffused Conditional Sequence Learning by Manipulating Noises ( http://arxiv.org/abs/2302.10025v2 )

ライセンス: Link先を確認
Jiasheng Ye, Zaixiang Zheng, Yu Bao, Lihua Qian, Mingxuan Wang, (参考訳) 拡散モデルは画像や音声などの連続的な信号を生成する上で大きな成功を収めてきたが、自然言語のような離散的なシーケンスデータを学習する際には拡散モデルが有用である。 近年の進歩は、離散トークンを連続的なサロゲートとして埋め込むことによって、この離散性の課題を回避しているが、それでも満足な生成品質には達していない。 これを理解するために、まず拡散型シーケンス生成モデルの復号化学習プロトコルを深く掘り下げて、3つの深刻な問題、すなわち3つの問題を決定する。 1) 学習に失敗する。 2)スケーラビリティの欠如、そして 3)ソース条件を無視する。 これらの問題は、埋め込み空間における完全に排除されていない離散性の落とし穴に沸騰しうると論じ、ここではノイズの規模が決定的である。 本稿では,DINOISERを導入し,ノイズの操作によるシーケンス生成のための拡散モデルを提案する。 本稿では,逆離散性学習のためのサンプル雑音尺度の範囲を適応的に決定することを提案する。 実験の結果,DINOISERは,複数の条件付きシーケンスモデリングベンチマークにおいて,従来の拡散型シーケンス生成モデルのベースラインよりも一貫した改善を実現していることがわかった。 分析は、DINOISERがその生成過程を管理するためにソース条件をよりよく利用できることをさらに検証する。

While diffusion models have achieved great success in generating continuous signals such as images and audio, it remains elusive for diffusion models in learning discrete sequence data like natural languages. Although recent advances circumvent this challenge of discreteness by embedding discrete tokens as continuous surrogates, they still fall short of satisfactory generation quality. To understand this, we first dive deep into the denoised training protocol of diffusion-based sequence generative models and determine their three severe problems, i.e., 1) failing to learn, 2) lack of scalability, and 3) neglecting source conditions. We argue that these problems can be boiled down to the pitfall of the not completely eliminated discreteness in the embedding space, and the scale of noises is decisive herein. In this paper, we introduce DINOISER to facilitate diffusion models for sequence generation by manipulating noises. We propose to adaptively determine the range of sampled noise scales for counter-discreteness training; and encourage the proposed diffused sequence learner to leverage source conditions with amplified noise scales during inference. Experiments show that DINOISER enables consistent improvement over the baselines of previous diffusion-based sequence generative models on several conditional sequence modeling benchmarks thanks to both effective training and inference strategies. Analyses further verify that DINOISER can make better use of source conditions to govern its generative process.
翻訳日:2024-05-02 20:40:32 公開日:2024-05-01
# 絡み合った量子状態を再考したクレーター-ホルン-シモニー-ホルト型ベルの不等式の振動

Violation of Bell's Inequality in the Clauser-Horne-Shimony-Holt Form with Entangled Quantum States Revisited ( http://arxiv.org/abs/2302.14046v2 )

ライセンス: Link先を確認
Carlo Cafaro, Christian Corda, Philip Cairns, Ayhan Bingolbali, (参考訳) 科学的想像力と実験的な創発性は物理学の中心にある。 この理論(すなわち基礎)と実験(すなわち技術)が相互作用する最もよく知られた例の1つはベルの不等式に関する議論である。 本稿では,Claus-Horne-Shimony-Holt (CHSH) 形式におけるベルの不等式と量子状態の絡み合いについて再検討する。 まず、1935年のアインシュタイン-ポドルスキー-ローゼン(EPR)パラドックス(すなわち量子力学の不完全性)の議論から始まり、アインシュタインの局所性と物理現象の絶対的な性質に重点を置くことから生じる。 第2に、ベルが1969年のCHSH形式である1964年のベルの不等式を現実的な局所隠れ変数理論(RLHVT)の文脈で導出したことについて議論する。 第3に、RLHVTと量子力学的スピン相関係数を同定し、1991年のギシンの分析に従い、系が絡み合った量子状態にあるとき、量子力学がベルの不等式に反することを示す。 教育的な目的のために、この違反の程度が分極子の配向と量子状態の絡み合い度の両方に依存することを示す。 第4に,1982年の Aspect-Grangier-Roger (AGR) 実験で示された実験室におけるベルの不等式の実験的検証の基礎について論じる。 最後に、この素晴らしい物理学の例から、いくつかの本質的なホームメッセージの概要を紹介します。

Scientific imagination and experimental ingenuity are at the heart of physics. One of the most known instances where this interplay between theory (i.e., foundations) and experiments (i.e., technology) occurs is in the discussion of Bell's inequalities. In this paper, we present a revisitation of the violation of Bell's inequality in the Clauser-Horne-Shimony-Holt (CHSH) form with entangled quantum states. First, we begin with a discussion of the 1935 Einstein-Podolski-Rosen (EPR) paradox (i.e., incompleteness of quantum mechanics) that emerges from putting the emphasis on Einstein's locality and the absolute character of physical phenomena. Second, we discuss Bell's 1971 derivation of the 1969 CHSH form of the original 1964 Bell inequality in the context of a realistic local hidden-variable theory (RLHVT). Third, identifying the quantum-mechanical spin correlation coefficient with the RLHVT one, we follow Gisin's 1991 analysis to show that quantum mechanics violates Bell's inequality when systems are in entangled quantum states. For pedagogical purposes, we show how the extent of this violation depends both on the orientation of the polarizers and the degree of entanglement of the quantum states. Fourth, we discuss the basics of the experimental verification of Bell's inequality in an actual laboratory as presented in the original 1982 Aspect-Grangier-Roger (AGR) experiment. Finally, we provide an outline of some essential take home messages from this wonderful example of physics at its best.
翻訳日:2024-05-02 20:40:32 公開日:2024-05-01
# 分散不変共分散正則化に関する情報理論的視点

An Information-Theoretic Perspective on Variance-Invariance-Covariance Regularization ( http://arxiv.org/abs/2303.00633v3 )

ライセンス: Link先を確認
Ravid Shwartz-Ziv, Randall Balestriero, Kenji Kawaguchi, Tim G. J. Rudner, Yann LeCun, (参考訳) 可変不変共分散正規化(VICReg)は、様々なタスクにおいて有望な結果を示す自己教師付き学習(SSL)手法である。 しかし、VICRegの基礎となるメカニズムは未解明のままである。 本稿では、VICRegの目的に関する情報理論的な視点を示す。 まず、非現実的な確率的ネットワーク仮定の代替として、決定論的ネットワークの情報理論量の導出から始める。 次に、VICRegの目的の最適化を相互情報最適化に関連付け、基礎となる仮定を強調し、他のSSLアルゴリズムとの構築的比較を容易にし、VICRegの一般化を導出し、下流タスクに固有の利点を明らかにする。 これらの結果に基づいて,既存のSSL技術より優れた情報理論原理に基づくSSL手法のファミリを導入する。

Variance-Invariance-Covariance Regularization (VICReg) is a self-supervised learning (SSL) method that has shown promising results on a variety of tasks. However, the fundamental mechanisms underlying VICReg remain unexplored. In this paper, we present an information-theoretic perspective on the VICReg objective. We begin by deriving information-theoretic quantities for deterministic networks as an alternative to unrealistic stochastic network assumptions. We then relate the optimization of the VICReg objective to mutual information optimization, highlighting underlying assumptions and facilitating a constructive comparison with other SSL algorithms and derive a generalization bound for VICReg, revealing its inherent advantages for downstream tasks. Building on these results, we introduce a family of SSL methods derived from information-theoretic principles that outperform existing SSL techniques.
翻訳日:2024-05-02 20:40:32 公開日:2024-05-01
# 閉ループクープマン演算子近似

Closed-Loop Koopman Operator Approximation ( http://arxiv.org/abs/2303.15318v3 )

ライセンス: Link先を確認
Steven Dahdah, James Richard Forbes, (参考訳) 本稿では,制御されたフィードバック制御システムのクープマンモデルを特定する手法を提案する。 クープマン作用素は、非線形系を無限次元線型系として書き換えることを可能にする。 クープマン作用素の有限次元近似は、持ち上げ関数の有限部分集合を選択し、持ち上げ空間における回帰問題を解くことによって、データから特定することができる。 既存の手法はオープンループシステムを特定するように設計されている。 しかし、不安定なシステムなど一部のシステムで、オープンループ方式で実験を行うことは現実的または不可能である。 提案手法は, 制御器の知識と閉ループ系の構造とともに, クープマン作用素の線形性を利用して, 閉ループ系とプラント系を同時に同定する。 閉ループクープマン演算子近似法の利点をダッフィング発振器を用いてシミュレーションし, 回転反転振子系を用いて実験した。 提案手法のオープンソースソフトウェア実装は,本論文で作成した実験データセットとともに公開されている。

This paper proposes a method to identify a Koopman model of a feedback-controlled system given a known controller. The Koopman operator allows a nonlinear system to be rewritten as an infinite-dimensional linear system by viewing it in terms of an infinite set of lifting functions. A finite-dimensional approximation of the Koopman operator can be identified from data by choosing a finite subset of lifting functions and solving a regression problem in the lifted space. Existing methods are designed to identify open-loop systems. However, it is impractical or impossible to run experiments on some systems, such as unstable systems, in an open-loop fashion. The proposed method leverages the linearity of the Koopman operator, along with knowledge of the controller and the structure of the closed-loop system, to simultaneously identify the closed-loop and plant systems. The advantages of the proposed closed-loop Koopman operator approximation method are demonstrated in simulation using a Duffing oscillator and experimentally using a rotary inverted pendulum system. An open-source software implementation of the proposed method is publicly available, along with the experimental dataset generated for this paper.
翻訳日:2024-05-02 20:40:32 公開日:2024-05-01
# Inverse Unscented Kalman Filter

Inverse Unscented Kalman Filter ( http://arxiv.org/abs/2304.01698v2 )

ライセンス: Link先を確認
Himali Singh, Kumar Vijay Mishra, Arpan Chattopadhyay, (参考訳) 認知システムと対逆システムの設計の急速な進歩は、逆ベイズフィルタの開発を動機付けている。 この設定では、認知的「敵」はカルマンフィルタ(KF)のような確率的枠組みを通じて興味の対象を追跡する。 ターゲットまたは「ディフェンダー」は別の逆確率フィルタを用いて、相手が計算したディフェンダーの前方フィルタ推定を推測する。 線形系では、逆カルマンフィルタ (I-KF) がこれらの反逆応用に有効であることが最近示されている。 本稿では,従来の研究とは対照的に,非線形系力学に着目し,未知のKF (I-UKF) を定式化し,未知の変換,あるいは同値の統計的線形化技術に基づいてディフェンダーの状態を推定する。 次に、このフレームワークを未知のシステムに一般化し、Hilbert空間をベースとしたUKF(RKHS-UKF)を再現し、システムダイナミクスを学習し、その観測に基づいて状態を推定する。 平均二乗感覚におけるI-UKFとRKHS-UKFの確率安定性を保証するための理論的解析により,前方フィルタが安定であれば,逆フィルタも穏やかなシステムレベル条件下で安定であることを示す。 準最適フィルタであるにもかかわらず、提案したI-UKFは保守的推定器であり、I-UKFの推定誤差共分散が真値の上限となることを示す。 いくつかの異なる応用のための数値実験により、再帰的Clam\'{e}r-Rao下界と非可逆指数(NCI)を用いて、提案フィルタの推定性能を実証した。

Rapid advances in designing cognitive and counter-adversarial systems have motivated the development of inverse Bayesian filters. In this setting, a cognitive 'adversary' tracks its target of interest via a stochastic framework such as a Kalman filter (KF). The target or 'defender' then employs another inverse stochastic filter to infer the forward filter estimates of the defender computed by the adversary. For linear systems, the inverse Kalman filter (I-KF) has been recently shown to be effective in these counter-adversarial applications. In the paper, contrary to prior works, we focus on non-linear system dynamics and formulate the inverse unscented KF (I-UKF) to estimate the defender's state based on the unscented transform, or equivalently, statistical linearization technique. We then generalize this framework to unknown systems by proposing reproducing kernel Hilbert space-based UKF (RKHS-UKF) to learn the system dynamics and estimate the state based on its observations. Our theoretical analyses to guarantee the stochastic stability of I-UKF and RKHS-UKF in the mean-squared sense show that, provided the forward filters are stable, the inverse filters are also stable under mild system-level conditions. We show that, despite being a suboptimal filter, our proposed I-UKF is a conservative estimator, i.e., I-UKF's estimated error covariance upper-bounds its true value. Our numerical experiments for several different applications demonstrate the estimation performance of the proposed filters using recursive Cram\'{e}r-Rao lower bound and non-credibility index (NCI).
翻訳日:2024-05-02 20:40:32 公開日:2024-05-01
# R2ユーティリティによる多目的最適化

Multi-objective optimisation via the R2 utilities ( http://arxiv.org/abs/2305.11774v3 )

ライセンス: Link先を確認
Ben Tu, Nikolas Kantas, Robert M. Lee, Behrang Shafei, (参考訳) 多目的最適化の目標は、複数の目的の間の最良のトレードオフを記述する点の集合を特定することである。 このベクトル値最適化問題を解くために、多目的問題を単一目的問題の集合に変換するために、しばしばスカラー化関数の使用を訴える。 この一連のスカラー化問題は、従来の単目的最適化技術を用いて解決することができる。 本研究では,この概念を一般的な数学的枠組みとして定式化する。 この戦略は,元となる多目的最適化問題を,集合上で定義された単目的最適化問題に効果的に再キャストすることを示す。 この新しい問題に対する目的関数の適切なクラスは、スカラー化された最適化問題に対する重み付き積分として定義されるユーティリティ関数であるR2ユーティリティである。 我々の研究の一環として、これらのユーティリティは単調かつ部分モジュラーな集合関数であり、グリーディ最適化アルゴリズムを用いて効果的に最適化できることを示す。 次に、これらの欲求的アルゴリズムの性能を理論的にも経験的にも分析する。 我々の分析は主にブラックボックス最適化の確率的フレームワークであるベイズ最適化に焦点を当てている。

The goal of multi-objective optimisation is to identify a collection of points which describe the best possible trade-offs between the multiple objectives. In order to solve this vector-valued optimisation problem, practitioners often appeal to the use of scalarisation functions in order to transform the multi-objective problem into a collection of single-objective problems. This set of scalarised problems can then be solved using traditional single-objective optimisation techniques. In this work, we formalise this convention into a general mathematical framework. We show how this strategy effectively recasts the original multi-objective optimisation problem into a single-objective optimisation problem defined over sets. An appropriate class of objective functions for this new problem are the R2 utilities, which are utility functions that are defined as a weighted integral over the scalarised optimisation problems. As part of our work, we show that these utilities are monotone and submodular set functions which can be optimised effectively using greedy optimisation algorithms. We then analyse the performance of these greedy algorithms both theoretically and empirically. Our analysis largely focusses on Bayesian optimisation, which is a popular probabilistic framework for black-box optimisation.
翻訳日:2024-05-02 20:40:32 公開日:2024-05-01
# 室内シーン認識のための意味誘導型空間関係モデルとオブジェクト共起モデル

Semantic-guided modeling of spatial relation and object co-occurrence for indoor scene recognition ( http://arxiv.org/abs/2305.12661v3 )

ライセンス: Link先を確認
Chuanxin Song, Hanbo Wu, Xin Ma, (参考訳) シーンイメージのセマンティックコンテキストの探索は,屋内シーン認識に不可欠である。 しかし、クラス内空間配置の多様性とクラス間オブジェクトの共存により、様々な画像特性を適応させるためにコンテキスト関係をモデル化することは大きな課題である。 シーン認識のための既存の文脈モデリング手法には2つの制限がある。 1) シーン内の物体間の空間的関係を, 空間的レイアウトの多様性を限定して, 人工的に事前に定義された方法でモデル化するのが一般的である。 2) 異なる場面にまたがって共存する物体の違いを見落とし, シーン認識性能を抑えることが多かった。 これらの制約を克服するために,意味的セグメンテーションによって導かれるオブジェクトの空間的関係と共起を同時にモデル化するSpaCoNetを提案する。 まず,シーンの空間的特徴をモデル化するために,セマンティック空間関係モジュール (SSRM) を構築した。 セマンティックセグメンテーションの助けを借りて、このモジュールはシーン画像から空間情報を分離し、エンドツーエンドでオブジェクト間のすべての空間関係を徹底的に探索する。 次に、SSRMの空間的特徴と画像特徴抽出モジュールの深い特徴の両方を各オブジェクトに割り当て、異なるシーン間で共存するオブジェクトを区別する。 最後に,オブジェクト間の長距離共起を探索するグローバルローカル依存モジュールを設計し,さらに屋内シーン認識のための意味誘導特徴表現を生成する。 広範に使用されている3つのシーンデータセットの実験結果から,提案手法の有効性と汎用性を示す。

Exploring the semantic context in scene images is essential for indoor scene recognition. However, due to the diverse intra-class spatial layouts and the coexisting inter-class objects, modeling contextual relationships to adapt various image characteristics is a great challenge. Existing contextual modeling methods for scene recognition exhibit two limitations: 1) They typically model only one kind of spatial relationship among objects within scenes in an artificially predefined manner, with limited exploration of diverse spatial layouts. 2) They often overlook the differences in coexisting objects across different scenes, suppressing scene recognition performance. To overcome these limitations, we propose SpaCoNet, which simultaneously models Spatial relation and Co-occurrence of objects guided by semantic segmentation. Firstly, the Semantic Spatial Relation Module (SSRM) is constructed to model scene spatial features. With the help of semantic segmentation, this module decouples the spatial information from the scene image and thoroughly explores all spatial relationships among objects in an end-to-end manner. Secondly, both spatial features from the SSRM and deep features from the Image Feature Extraction Module are allocated to each object, so as to distinguish the coexisting object across different scenes. Finally, utilizing the discriminative features above, we design a Global-Local Dependency Module to explore the long-range co-occurrence among objects, and further generate a semantic-guided feature representation for indoor scene recognition. Experimental results on three widely used scene datasets demonstrate the effectiveness and generality of the proposed method.
翻訳日:2024-05-02 20:40:32 公開日:2024-05-01
# 階層化されたバイナリから変数名を復元する生成モデルを活用する

Leveraging Generative Models to Recover Variable Names from Stripped Binary ( http://arxiv.org/abs/2306.02546v2 )

ライセンス: Link先を確認
Xiangzhe Xu, Zhuo Zhang, Zian Su, Ziyang Huang, Shiwei Feng, Yapeng Ye, Nan Jiang, Danning Xie, Siyuan Cheng, Lin Tan, Xiangyu Zhang, (参考訳) Decompilationはバイナリ実行ファイルのソースコード形式を復元することを目的としている。 マルウェア分析、脆弱性検出、コードのハードニングなど、多くのセキュリティアプリケーションがある。 逆コンパイルにおける顕著な課題は、変数名を復元することである。 本稿では,潜在的な幻覚を抑えつつ,入力トークン制限を克服しながら生成モデルの強みを活用する新しい手法を提案する。 我々は、事前訓練された生成モデルであるCode-LlamaからプロトタイプGenNmを構築した。 我々は、逆コンパイル関数にGenNmを微調整し、プログラム解析を利用して生成モデルが生成した結果を検証する。 GenNmには関数のクエリ中に呼び出し元や呼び出し元の名前が含まれており、モデルの入力トークン制限内でリッチなコンテキスト情報を提供する。 我々の結果は、クエリ関数がトレーニングデータセットに見られない最も困難なセットアップにおいて、GenNmが48.1%から57.9%に改善していることを示している。

Decompilation aims to recover the source code form of a binary executable. It has many security applications such as malware analysis, vulnerability detection and code hardening. A prominent challenge in decompilation is to recover variable names. We propose a novel technique that leverages the strengths of generative models while suppressing potential hallucinations and overcoming the input token limitation. We build a prototype, GenNm, from a pre-trained generative model Code-Llama. We fine-tune GenNm on decompiled functions, and leverage program analysis to validate the results produced by the generative model. GenNm includes names from callers and callees while querying a function, providing rich contextual information within the model's input token limitation. Our results show that GenNm improves the state-of-the-art from 48.1% to 57.9% in the most challenging setup where a query function is not seen in the training dataset.
翻訳日:2024-05-02 20:40:32 公開日:2024-05-01
# 都市植生点クラウドセマンティックセグメンテーションのためのMLSからのディープラーニングアーキテクチャのベンチマーク

Benchmarking Deep Learning Architectures for Urban Vegetation Point Cloud Semantic Segmentation from MLS ( http://arxiv.org/abs/2306.10274v3 )

ライセンス: Link先を確認
Aditya Aditya, Bharat Lohani, Jagannath Aryal, Stephan Winter, (参考訳) 植生は、持続可能で回復力のある都市が様々な生態系サービスを提供し、人間を豊かにする上で不可欠である。 しかし、植生は急速な都市化とインフラのフットプリントの拡大によって深刻なストレスにさらされている。 したがって、この植生のマッピングは都市環境において不可欠である。 近年、ポイントクラウドセマンティックセグメンテーションのためのディープラーニングが大きな進歩を見せている。 高度なモデルは、複数のクラスから構成され、現実のシナリオを表現する、ベンチマークデータセットの最先端のパフォーマンスを得ようとする。 しかし,植生点に関する分類的セグメンテーションは検討されていない。 したがって、植生点分割のための深層学習モデルの選択は曖昧である。 この問題に対処するため,植生のセマンティックセグメンテーションのためのポイントベース深層学習モデルの総合評価を行った。 我々は、PointCNN、KPConv (omni-supervised)、RandLANet、SCFNet、PointNeXt、SPoTr、PointMetaBaseの7つの代表的なポイントベースモデルを選択した。 これらのモデルは、特にChandigarh、Tronto3D、Keralaの3つの異なるデータセットで研究されている。 PointMetaBaseとKPConvはチャンディガル(95.24%)とトロント3Dデータセット(91.26%)で最高mIoUを達成し、PointCNNはケララデータセット(85.68%)で最高mIoUを提供する。 本論文は,植生セグメンテーションにおけるこれらのモデルの開発について,特に植生セグメンテーションを対象とするモデルに含めるべき成分について概説する。 本稿では,植生点分割のための新しいアーキテクチャの開発に向けての一歩である。

Vegetation is crucial for sustainable and resilient cities providing various ecosystem services and well-being of humans. However, vegetation is under critical stress with rapid urbanization and expanding infrastructure footprints. Consequently, mapping of this vegetation is essential in the urban environment. Recently, deep learning for point cloud semantic segmentation has shown significant progress. Advanced models attempt to obtain state-of-the-art performance on benchmark datasets, comprising multiple classes and representing real world scenarios. However, class specific segmentation with respect to vegetation points has not been explored. Therefore, selection of a deep learning model for vegetation points segmentation is ambiguous. To address this problem, we provide a comprehensive assessment of point-based deep learning models for semantic segmentation of vegetation class. We have selected seven representative point-based models, namely PointCNN, KPConv (omni-supervised), RandLANet, SCFNet, PointNeXt, SPoTr and PointMetaBase. These models are investigated on three different datasets, specifically Chandigarh, Toronto3D and Kerala, which are characterized by diverse nature of vegetation and varying scene complexity combined with changing per-point features and class-wise composition. PointMetaBase and KPConv (omni-supervised) achieve the highest mIoU on the Chandigarh (95.24%) and Toronto3D datasets (91.26%), respectively while PointCNN provides the highest mIoU on the Kerala dataset (85.68%). The paper develops a deeper insight, hitherto not reported, into the working of these models for vegetation segmentation and outlines the ingredients that should be included in a model specifically for vegetation segmentation. This paper is a step towards the development of a novel architecture for vegetation points segmentation.
翻訳日:2024-05-02 20:40:32 公開日:2024-05-01
# Grassrootsのソーシャルネットワーキング: 個人情報とソーシャルグラフに関するエージェンシーを持つ人

Grassroots Social Networking: Where People have Agency over their Personal Information and Social Graph ( http://arxiv.org/abs/2306.13941v5 )

ライセンス: Link先を確認
Ehud Shapiro, (参考訳) 個人情報やソーシャルグラフを代理するソーシャルネットワーキングのためのアーキテクチャを提供することは、オープンな課題である。 ここでは、サーバーレス、無許可、ピアツーピアのソーシャルネットワークのための草の根アーキテクチャ、Grassroots Social Networkingを紹介します。 このアーキテクチャは、ネットワーク化されたスマートフォンを持つ人々 – 信頼性の低いネットワーク(UDPなど)上で通信するローミング(アドレス変更)コンピューティングデバイス – を対象としている。 アーキテクチャが組み込まれています (i)各人がそのグラフにローカルな近所のみを制御・維持・保存する分散社会グラフ。(iii)フィードを作成・保存する著者・信奉者による個人用フィード (2)社会グラフの端辺にのみ人間のコミュニケーションが生じる草の根散布プロトコル。 アーキテクチャは、完全に順序付けされたコンフリクトベースのブロックチェーンの部分的に順序付けされたコンフリクトフリーのブロックレスデータ構造を使用して、これらのコンポーネントを実現する。 当社は、Grassroots Social Networkingプロトコル(TwitterライクとWhatsAppライク)の2つの例を提供し、セキュリティ(安全、ライブ、プライバシ)、スパム/ボット/ディープフェイク耐性、実装に対処し、サーバベースのソーシャルネットワークが草の根アーキテクチャによってどのように置き換えられるかを示す。

Offering an architecture for social networking in which people have agency over their personal information and social graph is an open challenge. Here we present a grassroots architecture for serverless, permissionless, peer-to-peer social networks termed Grassroots Social Networking that aims to address this challenge. The architecture is geared for people with networked smartphones -- roaming (address-changing) computing devices communicating over an unreliable network (e.g., using UDP). The architecture incorporates (i) a decentralized social graph, where each person controls, maintains and stores only their local neighborhood in the graph; (iii) personal feeds, with authors and followers who create and store the feeds; and (ii) a grassroots dissemination protocol, in which communication among people occurs only along the edges of their social graph. The architecture realizes these components using the blocklace data structure -- a partially-ordered conflict-free counterpart of the totally-ordered conflict-based blockchain. We provide two example Grassroots Social Networking protocols -- Twitter-like and WhatsApp-like -- and address their security (safety, liveness and privacy), spam/bot/deep-fake resistance, and implementation, demonstrating how server-based social networks could be supplanted by a grassroots architecture.
翻訳日:2024-05-02 20:40:32 公開日:2024-05-01
# 適応収集データを用いた強化学習のためのオフライン政策評価

Offline Policy Evaluation for Reinforcement Learning with Adaptively Collected Data ( http://arxiv.org/abs/2306.14063v2 )

ライセンス: Link先を確認
Sunil Madhow, Dan Qiao, Ming Yin, Yu-Xiang Wang, (参考訳) オフラインRL手法のサンプル複雑性に関する理論的保証を開発することは、データハングリーRLアルゴリズムを実用的なものにするための重要なステップである。 現在、ほとんどの結果は、データ分散に関する非現実的な仮定(つまり、単一のロギングポリシーによって収集された一連のi.d.トラジェクトリを含む)に焦点を合わせている。 データセットが適応的に収集されたかもしれない、より一般的な設定を考える。 我々は,表型MDPの一般化された設定において,TMISオフライン政策評価(OPE)推定器の理論を開発し,その推定誤差に高確率,インスタンス依存境界を導出する。 また,適応環境での極小最適オフライン学習を復元する。 最後に,適応型および非適応型体制下で,これらの推定器の挙動を実証的に解析するシミュレーションを行う。

Developing theoretical guarantees on the sample complexity of offline RL methods is an important step towards making data-hungry RL algorithms practically viable. Currently, most results hinge on unrealistic assumptions about the data distribution -- namely that it comprises a set of i.i.d. trajectories collected by a single logging policy. We consider a more general setting where the dataset may have been gathered adaptively. We develop theory for the TMIS Offline Policy Evaluation (OPE) estimator in this generalized setting for tabular MDPs, deriving high-probability, instance-dependent bounds on its estimation error. We also recover minimax-optimal offline learning in the adaptive setting. Finally, we conduct simulations to empirically analyze the behavior of these estimators under adaptive and non-adaptive regimes.
翻訳日:2024-05-02 20:40:32 公開日:2024-05-01
# スペクトル拡散量子二レベル系による量子ビットのデファス化

Qubit dephasing by spectrally diffusing quantum two-level systems ( http://arxiv.org/abs/2306.15264v2 )

ライセンス: Link先を確認
Shlomi Matityahu, Alexander Shnirman, Moshe Schechter, (参考訳) 量子ビットと共鳴に近い2レベル系のスペクトル拡散によるジョセフソン量子ビットの純粋退化について検討する。 エネルギー緩和率の順に、この純粋な減音率を適用できるパラメータ構造を同定し、この関係を量子ビットに対して1T_2 = 2T_1$とする。 この状態は、スペクトル拡散に寄与する熱TLSの力学が、量子ビットのエネルギー緩和よりも十分に遅い場合に到達する。 キュービット周波数やTLS励起エネルギーを周期的に変調することで、この純粋な減圧機構を緩和することができ、超伝導キュービットのコヒーレンス時間を向上できることを示す。 仮にそれが劣悪であるとしても、純粋に嫌悪を緩和することは、支配的緩和過程(T_1$)を消去誤差に変換するという最近の提案の観点において特に重要なものであり、純粋に嫌悪は効率的な量子計算のボトルネックとして残されている。

We investigate the pure dephasing of a Josephson qubit due to the spectral diffusion of two-level systems that are close to resonance with the qubit. We identify the parameter regime in which this pure dephasing rate can be of the order of the energy relaxation rate and, thus, the relation $T_2 = 2 T_1$ is violated for the qubit. This regime is reached if the dynamics of the thermal TLSs responsible for the spectral diffusion is sufficiently slower than the energy relaxation of the qubit. By adding periodic bias modulating the qubit frequency or TLS excitation energies we show that this pure dephasing mechanism can be mitigated, allowing enhancement of superconducting qubits coherence time. Mitigating pure dephasing, even if it is subdominant, is of special significance in view of recent suggestions for converting the dominant relaxation process ($T_1$) into erasure errors, leaving pure dephasing as the bottleneck for efficient quantum computation.
翻訳日:2024-05-02 20:40:32 公開日:2024-05-01
# スタイン法によるガウス確率場近似と広帯域ランダムニューラルネットワークへの応用

Gaussian random field approximation via Stein's method with applications to wide random neural networks ( http://arxiv.org/abs/2306.16308v2 )

ライセンス: Link先を確認
Krishnakumar Balasubramanian, Larry Goldstein, Nathan Ross, Adil Salim, (参考訳) 我々は、任意の連続$\mathbb{R}^d$値付きランダム場の間の$\sup$-normに関するワッサーシュタイン距離(W_1$)の上界を、スタインの法則に基づいて導出する。 我々は、よりスムーズな計量のバウンドを$W_1$距離に転送できる新しいガウススムージング手法を開発した。 滑らか化はラプラシアン作用素の力を使って構成された共分散関数に基づいており、関連するガウス過程がトラクタブルなキャメロン・マーチンあるいは再生するケルネル・ヒルベルト空間を持つように設計されている。 この特徴により、文献でこれまで考慮されていた1次元の間隔ベースの指数集合を超えて移動することができる。 一般結果に特化して、任意の深さの広いランダムニューラルネットワークのガウス確率場近似とランダム場レベルでのリプシッツ活性化関数の第一境界を求める。 我々の境界は、ネットワークの幅とランダムな重みのモーメントで明示的に表現される。 また、活性化関数が3つの有界微分を持つとき、より厳密な境界を得る。

We derive upper bounds on the Wasserstein distance ($W_1$), with respect to $\sup$-norm, between any continuous $\mathbb{R}^d$ valued random field indexed by the $n$-sphere and the Gaussian, based on Stein's method. We develop a novel Gaussian smoothing technique that allows us to transfer a bound in a smoother metric to the $W_1$ distance. The smoothing is based on covariance functions constructed using powers of Laplacian operators, designed so that the associated Gaussian process has a tractable Cameron-Martin or Reproducing Kernel Hilbert Space. This feature enables us to move beyond one dimensional interval-based index sets that were previously considered in the literature. Specializing our general result, we obtain the first bounds on the Gaussian random field approximation of wide random neural networks of any depth and Lipschitz activation functions at the random field level. Our bounds are explicitly expressed in terms of the widths of the network and moments of the random weights. We also obtain tighter bounds when the activation function has three bounded derivatives.
翻訳日:2024-05-02 20:40:32 公開日:2024-05-01
# トラップイオン量子コンピュータにおける分類と回帰のための量子支援ベクトルマシン

Quantum support vector machines for classification and regression on a trapped-ion quantum computer ( http://arxiv.org/abs/2307.02091v3 )

ライセンス: Link先を確認
Teppei Suzuki, Takashi Hasebe, Tsubasa Miyazaki, (参考訳) 量子機械学習は、量子コンピューティングと機械学習の交差点で急速に成長する分野である。 本研究では、量子サポートベクトル分類(QSVC)と量子サポートベクトル回帰(QSVR)に基づく量子機械学習モデルについて検討する。 本稿では,これらのモデルについて,ノイズと非ノイズの双方を考慮した量子回路シミュレータとIonQ Harmony量子プロセッサを用いて検討する。 QSVCタスクには不正なクレジットカード取引と画像データセット(MNISTとFashion-MNISTデータセット)を含むデータセットを使用し、QSVRタスクには財務データセットと資料データセットを使用します。 分類タスクでは, 捕捉イオン量子コンピュータの4量子ビットを用いたQSVCモデルの性能は, ノイズレス量子回路シミュレーションで得られたものと同等であった。 その結果, クビットゲート誤り率の異なるデバイスノイズシミュレーションの解析結果と一致した。 回帰タスクでは、ノイズ量子カーネルに低ランク近似を適用し、超パラメータチューニングと組み合わせて、近未来の量子デバイス上でのQSVRモデルの性能を改善した。 フロベニウス内部積によって測定されたアライメントは、ノイズのない量子核とノイズの多い量子核の間で測定され、ノイズの多い量子デバイス上での相対予測性能の指標となる。 この結果から,量子カーネルはQSVCとQSVRの両方のタスクに効果的に利用でき,ノイズに対する耐性と各種データセットへの適応性を示すことが示唆された。

Quantum machine learning is a rapidly growing field at the intersection of quantum computing and machine learning. In this work, we examine our quantum machine learning models, which are based on quantum support vector classification (QSVC) and quantum support vector regression (QSVR). We investigate these models using a quantum-circuit simulator, both with and without noise, as well as the IonQ Harmony quantum processor. For the QSVC tasks, we use a dataset containing fraudulent credit card transactions and image datasets (the MNIST and the Fashion-MNIST datasets); for the QSVR tasks, we use a financial dataset and a materials dataset. For the classification tasks, the performance of our QSVC models using 4 qubits of the trapped-ion quantum computer was comparable to that obtained from noiseless quantum-circuit simulations. The result is consistent with the analysis of our device-noise simulations with varying qubit-gate error rates. For the regression tasks, applying a low-rank approximation to the noisy quantum kernel, in combination with hyperparameter tuning in {\epsilon}-SVR, improved the performance of the QSVR models on the near-term quantum device. The alignment, as measured by the Frobenius inner product between the noiseless and noisy quantum kernels, can serve as an indicator of the relative prediction performance on noisy quantum devices in comparison with their ideal counterparts. Our results suggest that the quantum kernel, as described by our shallow quantum circuit, can be effectively used for both QSVC and QSVR tasks, indicating its resistance to noise and its adaptability to various datasets.
翻訳日:2024-05-02 20:30:46 公開日:2024-05-01
# Realistic Thick-Slice CT シミュレーションによる超解像ネットワークの強化

Enhancing Super-Resolution Networks through Realistic Thick-Slice CT Simulation ( http://arxiv.org/abs/2307.10182v2 )

ライセンス: Link先を確認
Zeyu Tang, Xiaodan Xing, Guang Yang, (参考訳) 深層学習に基づく生成モデルでは、低分解能CT画像を長い取得時間なしで高分解能CT画像に変換する可能性があり、薄スライスCT画像では放射線暴露が増大する。 しかし、これらの超解法(SR)モデルの適切なトレーニングデータを取得することは困難である。 これまでのSR研究では、薄いスライスCT画像から厚いスライスCT画像をシミュレートして、トレーニングペアを作成していた。 しかし、これらの手法は、生データと複雑な再構成アルゴリズムの公開を必要とする写実性やノングラムの再構成を欠く、単純化された補間技術に依存している。 そこで本研究では,薄いスライスCT画像から厚いCT画像を生成するための,単純かつ現実的な手法を導入し,SRアルゴリズムのトレーニングペアの作成を容易にする。 提案手法は実データ分布(PSNR=49.74 vs. 40.66, p$<$0.05)によく似ている。 肺線維症を伴う肉厚CT画像を用いた多変量コックス回帰分析により, 死亡率と有意な相関が認められた(HR=1.19, HR=1.14, p$<0.005)。 本稿では,実世界のシナリオにおけるSRモデルの有効性と適用性を高めることを目的とした,ディープラーニングベースのCT SRモデルの適切なペア化トレーニングデータ生成の課題を,初めて特定・解決する。

Deep learning-based Generative Models have the potential to convert low-resolution CT images into high-resolution counterparts without long acquisition times and increased radiation exposure in thin-slice CT imaging. However, procuring appropriate training data for these Super-Resolution (SR) models is challenging. Previous SR research has simulated thick-slice CT images from thin-slice CT images to create training pairs. However, these methods either rely on simplistic interpolation techniques that lack realism or sinogram reconstruction, which require the release of raw data and complex reconstruction algorithms. Thus, we introduce a simple yet realistic method to generate thick CT images from thin-slice CT images, facilitating the creation of training pairs for SR algorithms. The training pairs produced by our method closely resemble real data distributions (PSNR=49.74 vs. 40.66, p$<$0.05). A multivariate Cox regression analysis involving thick slice CT images with lung fibrosis revealed that only the radiomics features extracted using our method demonstrated a significant correlation with mortality (HR=1.19 and HR=1.14, p$<$0.005). This paper represents the first to identify and address the challenge of generating appropriate paired training data for Deep Learning-based CT SR models, which enhances the efficacy and applicability of SR models in real-world scenarios.
翻訳日:2024-05-02 20:30:46 公開日:2024-05-01
# 一定深さにおけるロバストスパースIQPサンプリング

Robust sparse IQP sampling in constant depth ( http://arxiv.org/abs/2307.10729v4 )

ライセンス: Link先を確認
Louis Paletta, Anthony Leverrier, Alain Sarlette, Mazyar Mirrahimi, Christophe Vuillot, (参考訳) NISQ(ノイズの多い中間スケール量子)アプローチと完全フォールトトレラント量子計算の証明のないアプローチの間には、最小の誤差補正条件でノイズに頑健な証明可能な超多項式量子優位性(いくつかの広く受け入れられている複雑性予想の下で)を実現するためのスキームを提案する。 我々は、スパースIQP(Instantaneous Quantum Polynomial-time)回路と呼ばれる通勤ゲートのサンプリング問題の種類を選択し、テトラヘリックス符号を導入することにより、その耐故障性を確保する。 この新符号は、複数の四面体符号(3Dカラーコード)をマージして取得され、各スパースIQPゲートがトランスバーサル実装を認め、論理回路の深さをその幅で交換できるという特性を持つ。 これらを組み合わせることで、符号化状態の準備まで、任意のスパースIQP回路のディープ-1実装が得られる。 これは、元の回路の幅で多対数しか持たない空間オーバーヘッドのコストが伴う。 さらに、従来の計算からフィードフォワードの単一ステップで、状態準備を一定の深さで行うこともできることを示す。 そこで本研究では,1ラウンドの計測とフィードフォワードで一定深度回路上に実装したサンプリング問題に対して,ロバストなスーパーポリノミカル量子優位性を示す。

Between NISQ (noisy intermediate scale quantum) approaches without any proof of robust quantum advantage and fully fault-tolerant quantum computation, we propose a scheme to achieve a provable superpolynomial quantum advantage (under some widely accepted complexity conjectures) that is robust to noise with minimal error correction requirements. We choose a class of sampling problems with commuting gates known as sparse IQP (Instantaneous Quantum Polynomial-time) circuits and we ensure its fault-tolerant implementation by introducing the tetrahelix code. This new code is obtained by merging several tetrahedral codes (3D color codes) and has the following properties: each sparse IQP gate admits a transversal implementation, and the depth of the logical circuit can be traded for its width. Combining those, we obtain a depth-1 implementation of any sparse IQP circuit up to the preparation of encoded states. This comes at the cost of a space overhead which is only polylogarithmic in the width of the original circuit. We furthermore show that the state preparation can also be performed in constant depth with a single step of feed-forward from classical computation. Our construction thus exhibits a robust superpolynomial quantum advantage for a sampling problem implemented on a constant depth circuit with a single round of measurement and feed-forward.
翻訳日:2024-05-02 20:30:46 公開日:2024-05-01
# LISA: 大規模言語モデルによるセグメンテーションの推論

LISA: Reasoning Segmentation via Large Language Model ( http://arxiv.org/abs/2308.00692v3 )

ライセンス: Link先を確認
Xin Lai, Zhuotao Tian, Yukang Chen, Yanwei Li, Yuhui Yuan, Shu Liu, Jiaya Jia, (参考訳) 近年、認識システムは目覚ましい進歩を遂げているが、視覚認識タスクを実行する前に、対象物を特定するための明示的な人間の指示や事前定義されたカテゴリーに依存している。 このようなシステムは、暗黙のユーザー意図を積極的に推論し理解することはできない。 本研究では,新たなセグメンテーションタスク,すなわちセグメンテーションの推論を提案する。 このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。 さらに,1000以上のイメージインストラクション・マスクデータサンプルからなるベンチマークを構築し,複雑な推論と世界知識を応用して評価を行う。 最後に、LISA: Large Language Instructed Segmentation Assistantを提示する。これは、多モーダル大言語モデル(LLM)の言語生成能力を継承すると同時に、セグメンテーションマスクを生成する能力も備えている。 従来の語彙をSEGトークンで拡張し,セグメンテーション機能を解き放つための埋め込み・マスクパラダイムを提案する。 興味深いことに、LISAは複雑な推論と世界知識を含むケースを扱うことができる。 また、推論不要のデータセットのみにトレーニングされた場合、堅牢なゼロショット機能を示す。 さらに,239個のセグメンテーションデータサンプルだけでモデルを微調整することで,さらなる性能向上が期待できる。 定量的および定性的な実験により,本手法はマルチモーダルLLMの新しい推論セグメンテーション機能を効果的に解き放つことを示す。 コード、モデル、データはhttps://github.com/dvlab-research/LISAで入手できる。

Although perception systems have made remarkable advancements in recent years, they still rely on explicit human instruction or pre-defined categories to identify the target objects before executing visual recognition tasks. Such systems cannot actively reason and comprehend implicit user intention. In this work, we propose a new segmentation task -- reasoning segmentation. The task is designed to output a segmentation mask given a complex and implicit query text. Furthermore, we establish a benchmark comprising over one thousand image-instruction-mask data samples, incorporating intricate reasoning and world knowledge for evaluation purposes. Finally, we present LISA: large Language Instructed Segmentation Assistant, which inherits the language generation capabilities of multimodal Large Language Models (LLMs) while also possessing the ability to produce segmentation masks. We expand the original vocabulary with a <SEG> token and propose the embedding-as-mask paradigm to unlock the segmentation capability. Remarkably, LISA can handle cases involving complex reasoning and world knowledge. Also, it demonstrates robust zero-shot capability when trained exclusively on reasoning-free datasets. In addition, fine-tuning the model with merely 239 reasoning segmentation data samples results in further performance enhancement. Both quantitative and qualitative experiments show our method effectively unlocks new reasoning segmentation capabilities for multimodal LLMs. Code, models, and data are available at https://github.com/dvlab-research/LISA.
翻訳日:2024-05-02 20:30:46 公開日:2024-05-01
# REED: 完全同型暗号化のためのチップレットベースの加速器

REED: Chiplet-Based Accelerator for Fully Homomorphic Encryption ( http://arxiv.org/abs/2308.02885v2 )

ライセンス: Link先を確認
Aikata Aikata, Ahmet Can Mert, Sunmin Kwon, Maxim Deryabin, Sujoy Sinha Roy, (参考訳) 完全同型暗号化(FHE)は、プライバシ保護計算を可能にし、多くのアプリケーションを持つ。 しかし、その実践的な実装は、膨大な計算とメモリオーバーヘッドに直面している。 このボトルネックに対処するため、いくつかのアプリケーション専用集積回路(ASIC)FHEアクセラレータが提案されている。 これらの以前の作業はすべて、FHEに必要なすべてのコンポーネントを1つのチップ(モノリシック)に配置し、高性能を実現した。 しかし、それらは、柔軟性、低収率、製造コストなど、大規模なチップ設計に関連する実用上の問題に悩まされている。 本稿では,従来のモノリシック設計の限界を克服するための,マルチチップベースのFHEアクセラレータ「REED」について述べる。 大規模モノリシックシステムの性能に適合しながら,マルチチップ構造の利点を生かし,FHEの文脈で新たな戦略を提案し,実装する。 これには、スケーラブルなチップレット設計アプローチ、ワークロード分散のための効果的なフレームワーク、カスタムのチップレット間通信戦略、高性能なパイプライン数理論変換と自己同型設計などが含まれる。 実験の結果、REED 2.5Dマイクロプロセッサはチップ面積96.7 mm$^2$、平均出力49.4Wを7nm技術で消費していることがわかった。 CPU(24コアの2xIntel X5690)と比較して2,991倍のスピードアップを実現し、1.9倍の性能を実現し、最先端のASIC FHEアクセラレータと比べて開発コストを50%削減できる。 さらに、我々の研究は、暗号化されたディープニューラルネットワーク(DNN)トレーニングをベンチマークする最初の事例を示す。 全体として、REEDアーキテクチャ設計はFHEを加速するための非常に効果的なソリューションを提供し、現実世界のアプリケーションにおけるFHEの実用性とデプロイ性を大幅に向上させる。

Fully Homomorphic Encryption (FHE) enables privacy-preserving computation and has many applications. However, its practical implementation faces massive computation and memory overheads. To address this bottleneck, several Application-Specific Integrated Circuit (ASIC) FHE accelerators have been proposed. All these prior works put every component needed for FHE onto one chip (monolithic), hence offering high performance. However, they suffer from practical problems associated with large-scale chip design, such as inflexibility, low yield, and high manufacturing cost. In this paper, we present the first-of-its-kind multi-chiplet-based FHE accelerator `REED' for overcoming the limitations of prior monolithic designs. To utilize the advantages of multi-chiplet structures while matching the performance of larger monolithic systems, we propose and implement several novel strategies in the context of FHE. These include a scalable chiplet design approach, an effective framework for workload distribution, a custom inter-chiplet communication strategy, and advanced pipelined Number Theoretic Transform and automorphism design to enhance performance. Experimental results demonstrate that REED 2.5D microprocessor consumes 96.7 mm$^2$ chip area, 49.4 W average power in 7nm technology. It could achieve a remarkable speedup of up to 2,991x compared to a CPU (24-core 2xIntel X5690) and offer 1.9x better performance, along with a 50% reduction in development costs when compared to state-of-the-art ASIC FHE accelerators. Furthermore, our work presents the first instance of benchmarking an encrypted deep neural network (DNN) training. Overall, the REED architecture design offers a highly effective solution for accelerating FHE, thereby significantly advancing the practicality and deployability of FHE in real-world applications.
翻訳日:2024-05-02 20:30:46 公開日:2024-05-01
# FLIQS:One-Shot Mixed-Precision Floating-Point and Integer Quantization Search

FLIQS: One-Shot Mixed-Precision Floating-Point and Integer Quantization Search ( http://arxiv.org/abs/2308.03290v2 )

ライセンス: Link先を確認
Jordan Dotzel, Gang Wu, Andrew Li, Muhammad Umar, Yun Ni, Mohamed S. Abdelfattah, Zhiru Zhang, Liqun Cheng, Martin G. Dixon, Norman P. Jouppi, Quoc V. Le, Sheng Li, (参考訳) 量子化は、現代のディープニューラルネットワーク(DNN)のモデルサイズ、計算要求、エネルギー消費を減らすための主流圧縮技術となっている。 整数と浮動小数点の多変量を含む最近のハードウェアにおける数値的サポートの改善により、モデルコストの低い高品質な結果を得るためには、混合精度の量子化が必要である。 事前の混合精度法では、トレーニング後の量子化探索(精度を損なう)や、分枝による高いメモリ使用率をもたらす微分可能な量子化探索(英語版)が実施されている。 そこで本研究では,整数浮動小数点モデルと低精度浮動小数点モデルの両方で再学習する必要をなくした,最初のワンショット混合量子化探索を提案する。 複数の畳み込みおよび視覚変換器ネットワーク上での探索(FLIQS)を評価し,パレート最適モデルを検出する。 本手法は、一様精度、手動混合精度、最近の整数量子化探索法により改善される。 整数モデルでは、ImageNet上のResNet-18の精度を1.31%、ResNet-50の精度を0.90%向上させる。 さらに,新しい混合精度浮動小数点探索を初めて検討し,従来の最先端FP8モデルと比較して最大0.98%改善した。 最後に、FLIQSを拡張して、共同量子化とニューラルアーキテクチャ空間を同時に検索し、画像Netの精度を2.69%向上する。

Quantization has become a mainstream compression technique for reducing model size, computational requirements, and energy consumption for modern deep neural networks (DNNs). With improved numerical support in recent hardware, including multiple variants of integer and floating point, mixed-precision quantization has become necessary to achieve high-quality results with low model cost. Prior mixed-precision methods have performed either a post-training quantization search, which compromises on accuracy, or a differentiable quantization search, which leads to high memory usage from branching. Therefore, we propose the first one-shot mixed-precision quantization search that eliminates the need for retraining in both integer and low-precision floating point models. We evaluate our search (FLIQS) on multiple convolutional and vision transformer networks to discover Pareto-optimal models. Our approach improves upon uniform precision, manual mixed-precision, and recent integer quantization search methods. With integer models, we increase the accuracy of ResNet-18 on ImageNet by 1.31% and ResNet-50 by 0.90% with equivalent model cost over previous methods. Additionally, for the first time, we explore a novel mixed-precision floating-point search and improve MobileNetV2 by up to 0.98% compared to prior state-of-the-art FP8 models. Finally, we extend FLIQS to simultaneously search a joint quantization and neural architecture space and improve the ImageNet accuracy by 2.69% with similar model cost on a MobileNetV2 search space.
翻訳日:2024-05-02 20:30:46 公開日:2024-05-01
# プリクルージョンのない予測:到達可能な集合によるリコース検証

Prediction without Preclusion: Recourse Verification with Reachable Sets ( http://arxiv.org/abs/2308.12820v2 )

ライセンス: Link先を確認
Avni Kothari, Bogdan Kulynych, Tsui-Wei Weng, Berk Ustun, (参考訳) 機械学習モデルは、ローンの受取人、面接、または公共の利益を決定するためにしばしば使用される。 このような設定のモデルは、その動作性を考慮せずに機能を使用する。 結果として、彼らは固定価格の予測を割り当てることができる。つまり、融資や面接を拒否された個人は、実際には信用や雇用へのアクセスを妨げられている。 本研究では,モデルが決定対象に一定の予測を割り当てているかどうかを検証するために,リコース検証と呼ばれる手法を導入する。 本研究では,到達可能な集合を$-$,すなわち特徴空間における行動を通じて到達可能なすべての点の集合を用いて,リコース検証のためのモデルに依存しないアプローチを提案する。 離散的な特徴空間に対して到達可能な集合を構築する手法を開発し、その予測を単にクエリすることで任意のモデルの応答性を証明できる。 本研究は,消費者金融のデータセットにおけるリコースの有効性に関する包括的実証研究である。 この結果から,モデル開発におけるアクティビリティを考慮に入れた上で,適切な予測を割り当てることによって,モデルが不注意にアクセスを阻止できることを示す。

Machine learning models are often used to decide who receives a loan, a job interview, or a public benefit. Models in such settings use features without considering their actionability. As a result, they can assign predictions that are fixed $-$ meaning that individuals who are denied loans and interviews are, in fact, precluded from access to credit and employment. In this work, we introduce a procedure called recourse verification to test if a model assigns fixed predictions to its decision subjects. We propose a model-agnostic approach for recourse verification with reachable sets $-$ i.e., the set of all points that a person can reach through their actions in feature space. We develop methods to construct reachable sets for discrete feature spaces, which can certify the responsiveness of any model by simply querying its predictions. We conduct a comprehensive empirical study on the infeasibility of recourse on datasets from consumer finance. Our results highlight how models can inadvertently preclude access by assigning fixed predictions and underscore the need to account for actionability in model development.
翻訳日:2024-05-02 20:30:46 公開日:2024-05-01
# 不確実性量子化によるマルチミリオン原子系の電子構造予測

Electronic Structure Prediction of Multi-million Atom Systems Through Uncertainty Quantification Enabled Transfer Learning ( http://arxiv.org/abs/2308.13096v3 )

ライセンス: Link先を確認
Shashank Pathrudkar, Ponkrshnan Thiagarajan, Shivang Agarwal, Amartya S. Banerjee, Susanta Ghosh, (参考訳) Kohn-Sham Density Functional Theory(KS-DFT)シミュレーションで得られる基底状態電子密度は、豊富な物質情報を含み、機械学習(ML)モデルによる予測を魅力的にしている。 しかし、KS-DFTの計算コストは、トレーニングデータ生成を妨害する傾向にあるシステムサイズと立方体的にスケールするので、多くのスケールやシステム構成に適用可能な、定量的に正確なMLモデルを開発することは困難である。 そこで本研究では, 熱処理を用いたシステム構成を網羅的にサンプリングしながら, 伝達学習を用いて, トレーニングデータのマルチスケールな性質を活用することによる, この根本的な課題に対処する。 我々のMLモデルはヒューリスティックに頼らず、ベイズニューラルネットワークに基づいて不確実な定量化を実現している。 我々のモデルはデータ生成コストを著しく低減し、信頼性と正確性を検証すれば、欠陥のあるシステム、異なる合金組成、前例のない数百万の原子スケールを含む、トレーニング以上の多様なバルクシステムの予測を可能にします。 さらに、このような予測は、控えめな計算資源のみを用いて行うことができる。

The ground state electron density -- obtainable using Kohn-Sham Density Functional Theory (KS-DFT) simulations -- contains a wealth of material information, making its prediction via machine learning (ML) models attractive. However, the computational expense of KS-DFT scales cubically with system size which tends to stymie training data generation, making it difficult to develop quantifiably accurate ML models that are applicable across many scales and system configurations. Here, we address this fundamental challenge by employing transfer learning to leverage the multi-scale nature of the training data, while comprehensively sampling system configurations using thermalization. Our ML models are less reliant on heuristics, and being based on Bayesian neural networks, enable uncertainty quantification. We show that our models incur significantly lower data generation costs while allowing confident -- and when verifiable, accurate -- predictions for a wide variety of bulk systems well beyond training, including systems with defects, different alloy compositions, and at unprecedented, multi-million-atom scales. Moreover, such predictions can be carried out using only modest computational resources.
翻訳日:2024-05-02 20:30:46 公開日:2024-05-01
# GRASP: 効果的なオンライン連続学習のためのリハーサルポリシー

GRASP: A Rehearsal Policy for Efficient Online Continual Learning ( http://arxiv.org/abs/2308.13646v2 )

ライセンス: Link先を確認
Md Yousuf Harun, Jhair Gallardo, Junyu Chen, Christopher Kanan, (参考訳) ディープニューラルネットワーク(DNN)における連続学習(CL)は、成長するデータストリームからDNN内の知識を漸進的に蓄積する。 CLの大きな課題は、非定常データストリームが、以前に学習した能力を壊滅的に忘れてしまうことである。 一般的な解決策は、過去の観測結果をバッファに保存し、バッファをサンプリングしてDNNを更新する、リハーサルである。 クラスバランスの取れた一様サンプリングは非常に効果的であり,より優れたサンプル選択ポリシーが提案されている。 そこで我々はGRASPと呼ばれる新しいサンプル選択ポリシーを提案し、まず最も原型的(容易な)サンプルを選択し、その後徐々に原型的(より硬い)サンプルを選択する。 GRASPは、均一な選択に比べて計算やメモリのオーバーヘッドがほとんどなく、大規模なデータセットにスケールできる。 他の17のリハーサルポリシーと比較して、GRASPはImageNet上のCL実験で高い精度を達成する。 均一なバランスの取れたサンプリングと比較すると、GRASPは40%の更新で同じパフォーマンスを実現している。 また、GRASPは5つのテキスト分類データセット上でCLに有効であることを示す。

Continual learning (CL) in deep neural networks (DNNs) involves incrementally accumulating knowledge in a DNN from a growing data stream. A major challenge in CL is that non-stationary data streams cause catastrophic forgetting of previously learned abilities. A popular solution is rehearsal: storing past observations in a buffer and then sampling the buffer to update the DNN. Uniform sampling in a class-balanced manner is highly effective, and better sample selection policies have been elusive. Here, we propose a new sample selection policy called GRASP that selects the most prototypical (easy) samples first and then gradually selects less prototypical (harder) examples. GRASP has little additional compute or memory overhead compared to uniform selection, enabling it to scale to large datasets. Compared to 17 other rehearsal policies, GRASP achieves higher accuracy in CL experiments on ImageNet. Compared to uniform balanced sampling, GRASP achieves the same performance with 40% fewer updates. We also show that GRASP is effective for CL on five text classification datasets.
翻訳日:2024-05-02 20:30:46 公開日:2024-05-01
# 応答:大規模言語モデルにおける創発的類似推論

Response: Emergent analogical reasoning in large language models ( http://arxiv.org/abs/2308.16118v2 )

ライセンス: Link先を確認
Damian Hodel, Jevin West, (参考訳) 最近のNature Human Behaviourの論文"Emergent analogical reasoning in large language model" (Webb, Holyoak, Lu, 2023)では、著者らは「GPT-3のような大規模言語モデルは、幅広い類推問題に対するゼロショットの解を見つける能力を得た」と主張している。 この反応では、文字列類似の逆例を提供する。 我々のテストでは、GPT-3は元のタスクの最も単純なバリエーションを解決するのに失敗する。 ゼロショット推論は、異常な証拠を必要とする並外れた主張である。 私たちの実験ではその証拠は見当たらない。 ゼロショット推論などのヒューマンライクな推論の主張を強化するためには、フィールドがデータ記憶を除外するアプローチを開発することが重要である。

In their recent Nature Human Behaviour paper, "Emergent analogical reasoning in large language models," (Webb, Holyoak, and Lu, 2023) the authors argue that "large language models such as GPT-3 have acquired an emergent ability to find zero-shot solutions to a broad range of analogy problems." In this response, we provide counterexamples of the letter string analogies. In our tests, GPT-3 fails to solve simplest variations of the original tasks, whereas human performance remains consistently high across all modified versions. Zero-shot reasoning is an extraordinary claim that requires extraordinary evidence. We do not see that evidence in our experiments. To strengthen claims of humanlike reasoning such as zero-shot reasoning, it is important that the field develop approaches that rule out data memorization.
翻訳日:2024-05-02 20:30:46 公開日:2024-05-01
# RGI-Net:一階エコーの存在下での室内インパルス応答からの3次元室内形状推定

RGI-Net: 3D Room Geometry Inference from Room Impulse Responses in the Absence of First-order Echoes ( http://arxiv.org/abs/2309.01513v3 )

ライセンス: Link先を確認
Inmo Yeon, Jung-Woo Choi, (参考訳) 室内幾何はリアルな3Dオーディオレンダリングを実装する上で重要な事前情報である。 このため、室内インパルス応答(RIR)における時間差情報(TOA)や時間差情報(TDOA)を利用して、様々な室形状推論(RGI)手法が開発されている。 しかし、従来のRGI手法は、凸室形状、事前に知られている壁の数、一階反射の可視性など、いくつかの仮定を呈している。 本稿では,上記の仮定を使わずに部屋のジオメトリを推定できるRGI-Netを提案する。 RGI-Netは、RIRにおける低次反射と高次反射の複雑な関係を学習し、利用することにより、RIRにおいて形状が非凸あるいは一階反射が欠落している場合でも、部屋の形状を推定することができる。 RGI-Netは、壁の存在確率を別々に評価する評価ネットワークを含んでおり、壁の数について事前の知識なしに幾何学的推論が可能である。

Room geometry is important prior information for implementing realistic 3D audio rendering. For this reason, various room geometry inference (RGI) methods have been developed by utilizing the time-of-arrival (TOA) or time-difference-of-arrival (TDOA) information in room impulse responses (RIRs). However, the conventional RGI technique poses several assumptions, such as convex room shapes, the number of walls known in priori, and the visibility of first-order reflections. In this work, we introduce the RGI-Net which can estimate room geometries without the aforementioned assumptions. RGI-Net learns and exploits complex relationships between low-order and high-order reflections in RIRs and, thus, can estimate room shapes even when the shape is non-convex or first-order reflections are missing in the RIRs. RGI-Net includes the evaluation network that separately evaluates the presence probability of walls, so the geometry inference is possible without prior knowledge of the number of walls.
翻訳日:2024-05-02 20:30:46 公開日:2024-05-01
# 効率的な抽象化のための誘導バイアスとしてのリレーショナルボトルネック

The Relational Bottleneck as an Inductive Bias for Efficient Abstraction ( http://arxiv.org/abs/2309.06629v5 )

ライセンス: Link先を確認
Taylor W. Webb, Steven M. Frankland, Awni Altabaa, Simon Segert, Kamesh Krishnamurthy, Declan Campbell, Jacob Russin, Tyler Giallanza, Zack Dulberg, Randall O'Reilly, John Lafferty, Jonathan D. Cohen, (参考訳) 認知科学における中心的な課題は、抽象概念が限られた経験からどのように獲得されるかを説明することである。 これはコネクショニストとシンボリック認知モデルの間の二分法という観点で表されることが多い。 ここでは、リレーショナルボトルネックと呼ばれる帰納的バイアスを活用することによって、これらのアプローチの新たな和解を示唆する最近の研究のラインを強調します。 このアプローチでは、ニューラルネットワークはアーキテクチャを通じて制約され、個々の入力の属性ではなく、知覚的な入力間の関係に焦点を当てる。 我々は、この手法を用いて抽象概念をデータ効率で誘導するモデル群をレビューし、人間の心と脳における抽象概念の獲得の候補モデルとしての可能性を強調した。

A central challenge for cognitive science is to explain how abstract concepts are acquired from limited experience. This has often been framed in terms of a dichotomy between connectionist and symbolic cognitive models. Here, we highlight a recently emerging line of work that suggests a novel reconciliation of these approaches, by exploiting an inductive bias that we term the relational bottleneck. In that approach, neural networks are constrained via their architecture to focus on relations between perceptual inputs, rather than the attributes of individual inputs. We review a family of models that employ this approach to induce abstractions in a data-efficient manner, emphasizing their potential as candidate models for the acquisition of abstract concepts in the human mind and brain.
翻訳日:2024-05-02 20:21:02 公開日:2024-05-01
# PPG-ECG信号変換による心房細動連続検出

PPG-to-ECG Signal Translation for Continuous Atrial Fibrillation Detection via Attention-based Deep State-Space Modeling ( http://arxiv.org/abs/2309.15375v3 )

ライセンス: Link先を確認
Khuong Vo, Mostafa El-Khamy, Yoojin Choi, (参考訳) 光胸腺撮影(英: Photoplethysmography、PPG)は、光学的手法を用いて心臓生理学を計測する費用効率の高い非侵襲的手法である。 PPGは、健康モニタリングでますます人気となり、様々な商用および臨床ウェアラブルデバイスで使用されている。 心電図 (ECG) と比較すると, PPGは両者の相関が強いにもかかわらず, 臨床診断に有意な価値を与えていない。 本稿では,PPG信号を対応するECG波形に変換するために,主観非依存の注目に基づく深部状態空間モデル(ADSSM)を提案する。 このモデルはノイズに対して堅牢であるだけでなく、確率論的事前知識を取り入れることでデータ効率も向上する。 提案手法を評価するために,MIMIC-IIIデータベースから55名の被験者のデータを元の形式で使用し,実世界のシナリオを模倣したノイズで修正した。 既存の心房細動検出器(AFib)に心電図信号を入力する際に, 0.986のPR-AUCが実現した。 ADSSMは、心血管疾患の早期診断のためのECGの広範な知識基盤とPSGの継続的な測定の統合を可能にする。

Photoplethysmography (PPG) is a cost-effective and non-invasive technique that utilizes optical methods to measure cardiac physiology. PPG has become increasingly popular in health monitoring and is used in various commercial and clinical wearable devices. Compared to electrocardiography (ECG), PPG does not provide substantial clinical diagnostic value, despite the strong correlation between the two. Here, we propose a subject-independent attention-based deep state-space model (ADSSM) to translate PPG signals to corresponding ECG waveforms. The model is not only robust to noise but also data-efficient by incorporating probabilistic prior knowledge. To evaluate our approach, 55 subjects' data from the MIMIC-III database were used in their original form, and then modified with noise, mimicking real-world scenarios. Our approach was proven effective as evidenced by the PR-AUC of 0.986 achieved when inputting the translated ECG signals into an existing atrial fibrillation (AFib) detector. ADSSM enables the integration of ECG's extensive knowledge base and PPG's continuous measurement for early diagnosis of cardiovascular disease.
翻訳日:2024-05-02 20:21:02 公開日:2024-05-01
# 制約のない確率的CAA:マルチビューと自己監督学習の統合

Unconstrained Stochastic CCA: Unifying Multiview and Self-Supervised Learning ( http://arxiv.org/abs/2310.01012v4 )

ライセンス: Link先を確認
James Chapman, Lennie Wells, Ana Lawry Aguila, (参考訳) カノニカル相関解析(CCA)は多視点学習の基礎となる手法である。 正規化線形CAA法は部分最小正方形 (PLS) を一般化し、一般化固有値問題 (GEP) フレームワークと統一することができる。 しかし、これらの線形手法の古典的アルゴリズムは大規模データに対して計算不可能である。 Deep CCAの拡張は有望だが、現在のトレーニング手順は遅く、複雑である。 まず、GEPの上位部分空間を特徴付ける、制約のない新しい目的を提案する。 我々のコアコントリビューションは、確率的PSS、確率的CAA、Deep CCAのための高速アルゴリズムのファミリーであり、対応するCAの目的に確率的勾配勾配(SGD)を適用するだけで得られる。 我々のアルゴリズムは、すべての標準CCAおよびDeep CCAベンチマークにおいて、従来よりもはるかに高速な収束と高い相関関係の回復を示す。 これらの改善により、英国バイオバンクの非常に大きなバイオメディカルデータセットを、最初のPLS分析で分析することができます。 最後に,CIFAR-10 と CIFAR-100 における 'CCA- Family' Self-Supervised Learning (SSL) 手法の性能を最小限のハイパーパラメータチューニングで比較し,これらの手法と古典的な CCA との関係を明らかにするための理論を述べる。

The Canonical Correlation Analysis (CCA) family of methods is foundational in multiview learning. Regularised linear CCA methods can be seen to generalise Partial Least Squares (PLS) and be unified with a Generalized Eigenvalue Problem (GEP) framework. However, classical algorithms for these linear methods are computationally infeasible for large-scale data. Extensions to Deep CCA show great promise, but current training procedures are slow and complicated. First we propose a novel unconstrained objective that characterizes the top subspace of GEPs. Our core contribution is a family of fast algorithms for stochastic PLS, stochastic CCA, and Deep CCA, simply obtained by applying stochastic gradient descent (SGD) to the corresponding CCA objectives. Our algorithms show far faster convergence and recover higher correlations than the previous state-of-the-art on all standard CCA and Deep CCA benchmarks. These improvements allow us to perform a first-of-its-kind PLS analysis of an extremely large biomedical dataset from the UK Biobank, with over 33,000 individuals and 500,000 features. Finally, we apply our algorithms to match the performance of `CCA-family' Self-Supervised Learning (SSL) methods on CIFAR-10 and CIFAR-100 with minimal hyper-parameter tuning, and also present theory to clarify the links between these methods and classical CCA, laying the groundwork for future insights.
翻訳日:2024-05-02 20:21:02 公開日:2024-05-01
# 自己整合多体メトロジー

Self-consistent many-body metrology ( http://arxiv.org/abs/2310.02580v3 )

ライセンス: Link先を確認
Jae-Gyun Baak, Uwe R. Fischer, (参考訳) 古典的, 量子的メロジとパラメータ推定を相互作用するボソンを用いて検討し, 理論的にはマルチコンフィグレーション型ハーツリーの自己整合多体アプローチで処理する。 傾いた二重井戸形状に着目して、自在に決定され、モニターされた2モードのトランケーションと動的に変化する軌道を、フォック空間係数のみが時間的に進化する従来の2モードの固定軌道アプローチと比較する。 その結果、古典的なフィッシャー情報や最大極大推定器のようなコンクリートの測定に関連する様々な気象量が、量子進化の過程における軌道の変化に深く影響していることが証明された。 したがって、閉じ込められた超低温ガスと相互作用する量子多体力学の自己整合性は、与えられたメトロジープロトコルの達成可能なパラメータ推定精度に根本的な影響を及ぼす。

We investigate performing classical and quantum metrology and parameter estimation by using interacting trapped bosons, which we theoretically treat by a self-consistent many-body approach of the multiconfigurational Hartree type. Focusing on a tilted double-well geometry, we compare a self-consistently determined and monitored two-mode truncation, with dynamically changing orbitals, to the conventional two-mode approach of fixed orbitals, where only Fock space coefficients evolve in time. We demonstrate that, as a consequence, various metrological quantities associated to a concrete measurement such as the classical Fisher information and the maximum likelihood estimator are deeply affected by the orbitals' change during the quantum evolution. Self-consistency of the quantum many-body dynamics of interacting trapped ultracold gases thus fundamentally affects the attainable parameter estimation accuracy of a given metrological protocol.
翻訳日:2024-05-02 20:21:02 公開日:2024-05-01
# Convex Global and Local Constraintsによるフェデレーション学習

Federated Learning with Convex Global and Local Constraints ( http://arxiv.org/abs/2310.10117v3 )

ライセンス: Link先を確認
Chuan He, Le Peng, Ju Sun, (参考訳) 実際には、多くの機械学習(ML)問題には制約が伴い、適用されたドメインには、ヘルスケアなど、他と共有できない分散機密データが含まれる。 このような実践的なシナリオにおける協調学習は、制約のあるML問題に対するフェデレーションラーニング(FL)や、短い制約のFLを必要とする。 近年のFL技術の発展にもかかわらず、これらの手法は制約のないFL問題や単純な制約を持つFL問題にのみ対応し、容易に射影できる。 FL問題と一般制約を扱う作業はほとんどない。 このギャップを埋めるために、一般の制約でFL問題を解くアルゴリズムフレームワークを構築するための第一歩を踏み出す。 特に,近似拡張ラグランジアン(AL)法に基づく制約付きML問題に対する新しいFLアルゴリズムを提案する。 凸目標と凸制約とその他の穏やかな条件を仮定し、提案アルゴリズムの最悪の複雑さを確立する。 数値実験により,非凸制約によるNeyman-Pearson分類とフェアネス認識学習をFL設定で行う際のアルゴリズムの有効性が示された。

In practice, many machine learning (ML) problems come with constraints, and their applied domains involve distributed sensitive data that cannot be shared with others, e.g., in healthcare. Collaborative learning in such practical scenarios entails federated learning (FL) for ML problems with constraints, or FL with constraints for short. Despite the extensive developments of FL techniques in recent years, these techniques only deal with unconstrained FL problems or FL problems with simple constraints that are amenable to easy projections. There is little work dealing with FL problems with general constraints. To fill this gap, we take the first step toward building an algorithmic framework for solving FL problems with general constraints. In particular, we propose a new FL algorithm for constrained ML problems based on the proximal augmented Lagrangian (AL) method. Assuming convex objective and convex constraints plus other mild conditions, we establish the worst-case complexity of the proposed algorithm. Our numerical experiments show the effectiveness of our algorithm in performing Neyman-Pearson classification and fairness-aware learning with nonconvex constraints, in an FL setting.
翻訳日:2024-05-02 20:21:02 公開日:2024-05-01
# Adiabatic Quantum Computing を用いた平衡K平均の確率的サンプリング

Probabilistic Sampling of Balanced K-Means using Adiabatic Quantum Computing ( http://arxiv.org/abs/2310.12153v2 )

ライセンス: Link先を確認
Jan-Nico Zaech, Martin Danelljan, Tolga Birdal, Luc Van Gool, (参考訳) AQC(Adiabatic quantum computing)は、NP-hard最適化問題に対する有望なアプローチである。 現在のAQCは研究関心の問題を実装でき、多くのコンピュータビジョンタスクのための量子表現の開発に拍車をかけた。 ノイズの多いAQCから複数の測定を必要とするが、現在のアプローチでは、最も良い測定しか利用せず、残りの測定値に含まれる情報を捨てている。 本研究では,この情報を確率的バランスの取れたk平均クラスタリングに活用する可能性について検討する。 最適でない解を捨てる代わりに, 計算コストを少なくして, 校正後部確率を計算することを提案する。 これにより、合成タスクと実際の視覚データについて、D-Wave AQCで示すような曖昧な解とデータポイントを特定できる。

Adiabatic quantum computing (AQC) is a promising approach for discrete and often NP-hard optimization problems. Current AQCs allow to implement problems of research interest, which has sparked the development of quantum representations for many computer vision tasks. Despite requiring multiple measurements from the noisy AQC, current approaches only utilize the best measurement, discarding information contained in the remaining ones. In this work, we explore the potential of using this information for probabilistic balanced k-means clustering. Instead of discarding non-optimal solutions, we propose to use them to compute calibrated posterior probabilities with little additional compute cost. This allows us to identify ambiguous solutions and data points, which we demonstrate on a D-Wave AQC on synthetic tasks and real visual data.
翻訳日:2024-05-02 20:21:02 公開日:2024-05-01
# 単一光子の連続変調変数におけるGottesman-Kitaev-Preskill符号化

Gottesman-Kitaev-Preskill encoding in continuous modal variables of single photons ( http://arxiv.org/abs/2310.12618v4 )

ライセンス: Link先を確認
Éloi Descamps, Arne Keller, Pérola Milman, (参考訳) GKP状態は、Gottesman, Kitaev, Preskillによって導入された連続変数論理量子ビットであり、位相空間の変位による誤差を補正することができる。 それらの実験的な実現は、特に電磁場の二次構造に量子情報が符号化される伝播場を用いて困難である。 しかし、移動光子は、量子情報の長距離伝送を含むGKP符号の多くの応用において必須である。 本稿では,単一光子を用いた伝播場におけるGKP状態の符号化手法を提案する。 GKP状態は、時間と周波数として、集合的連続モードによって記述される高相関状態として定義される。 誤差検出と補正のプロトコルは、光子数とスペクトル幅でどのようにスケールするかを分析する。 得られた符号は, 位相空間の劣化, 回転に対応する時間周波数位相空間の変位, 光子損失に対して補正可能であることを示す。 最も重要なことは、2光子GKP状態の生成は比較的単純であり、これらの状態は現在、周波数と時間ビンの双光子絡み状態がエンジニアリング可能な複数のフォトニックプラットフォームで生成・操作されていることである。

GKP states, introduced by Gottesman, Kitaev, and Preskill, are continuous variable logical qubits that can be corrected for errors caused by phase space displacements. Their experimental realization is challenging, in particular using propagating fields, where quantum information is encoded in the quadratures of the electromagnetic field. However, travelling photons are essential in many applications of GKP codes involving the long-distance transmission of quantum information. We introduce a new method for encoding GKP states in propagating fields using single photons, each occupying a distinct auxiliary mode given by the propagation direction. The GKP states are defined as highly correlated states described by collective continuous modes, as time and frequency. We analyze how the error detection and correction protocol scales with the total photon number and the spectral width. We show that the obtained code can be corrected for displacements in time-frequency phase space - which correspond to dephasing, or rotations, in the quadrature phase space - and to photon losses. Most importantly, we show that generating two-photon GKP states is relatively simple, and that such states are currently produced and manipulated in several photonic platforms where frequency and time-bin biphoton entangled states can be engineered.
翻訳日:2024-05-02 20:21:02 公開日:2024-05-01
# 非相反媒質中のエネルギー伝達の逆設計によるナノフォトニック光分離を目指して

Towards nanophotonic optical isolation via inverse design of energy transfer in non-reciprocal media ( http://arxiv.org/abs/2310.13485v2 )

ライセンス: Link先を確認
Claire M. Cisowski, Madeline C. Waller, Robert Bennett, (参考訳) 本研究では,非相互メディアへの逆設計の随伴手法を一般化する。 テストケースでは、レベルセット法による3次元トポロジー最適化を用いて、点状ソースおよび観測点の一方方向エネルギー移動を最適化する。 これを実現するために、磁気光学媒体の存在下での効率的な形状最適化を可能にする「ファラデー・アジョイント」と呼ばれる一連のツールを紹介した。 非相互媒質中のエネルギー移動を導出する非常に一般的な方程式に基づいて最適化を行い、有限微分時間領域の数値をテンソル誘電率に一般化した修正ボルン級数を通して解析する。 この研究は、しばしば統合フォトニクスの「ホリー・ゲイル」と見なされる、実用的なナノフォトニクスの光学分離に向けたステップストーンを表している。

In this work we generalise the adjoint method of inverse design to nonreciprocal media. As a test case, we use three-dimensional topology optimization via the level-set method to optimise one-way energy transfer for point-like source and observation points. To achieve this we introduce a suite of tools, chiefly what we term the `Faraday-adjoint' method which allows for efficient shape optimization in the presence of magneto-optical media. We carry out an optimization based on a very general equation that we derive for energy transfer in a nonreciprocal medium, and link finite-different time-domain numerics to analytics via a modified Born series generalised to a tensor permittivity. This work represents a stepping stone towards practical nanophotonic optical isolation, often regarded as the `holy grail' of integrated photonics.
翻訳日:2024-05-02 20:21:02 公開日:2024-05-01
# Tractable MCMC for Private Learning with Pure and Gaussian Differential Privacy (特集:一般セッション)

Tractable MCMC for Private Learning with Pure and Gaussian Differential Privacy ( http://arxiv.org/abs/2310.14661v2 )

ライセンス: Link先を確認
Yingyu Lin, Yi-An Ma, Yu-Xiang Wang, Rachel Redberg, Zhiqi Bu, (参考訳) 後部サンプリング、すなわち後部分布からサンプリングする指数的なメカニズムは、$\varepsilon$-pure差分プライバシー(DP)保証を提供し、$(\varepsilon,\delta)$-approximate DPによってもたらされる潜在的に無拘束なプライバシー侵害に悩まされない。 しかし実際には、マルコフ連鎖モンテカルロ(MCMC)のような近似サンプリング手法を適用する必要があるため、未適用の$\delta$-approximationエラーをプライバシー保証に再導入する必要がある。 このギャップを埋めるために、純粋なDPまたは純粋なガウスDP(すなわち$\delta=0$)を満たす参照分布からワッサーシュタイン無限度(W_\infty$)に比例したノイズでMCMCサンプルを摂動する近似SAample摂動(ASAP)アルゴリズムを提案する。 次に、メトロポリス・ハスティングスアルゴリズムを用いてサンプルを生成し、そのアルゴリズムが$W_\infty$距離で収束することを証明する。 提案手法を局所化ステップと組み合わせることで, DP-ERM問題において, 強い凸とスムーズな損失を伴って最適な速度を達成できる, ほぼ線形時間アルゴリズムが得られた。

Posterior sampling, i.e., exponential mechanism to sample from the posterior distribution, provides $\varepsilon$-pure differential privacy (DP) guarantees and does not suffer from potentially unbounded privacy breach introduced by $(\varepsilon,\delta)$-approximate DP. In practice, however, one needs to apply approximate sampling methods such as Markov chain Monte Carlo (MCMC), thus re-introducing the unappealing $\delta$-approximation error into the privacy guarantees. To bridge this gap, we propose the Approximate SAample Perturbation (abbr. ASAP) algorithm which perturbs an MCMC sample with noise proportional to its Wasserstein-infinity ($W_\infty$) distance from a reference distribution that satisfies pure DP or pure Gaussian DP (i.e., $\delta=0$). We then leverage a Metropolis-Hastings algorithm to generate the sample and prove that the algorithm converges in $W_\infty$ distance. We show that by combining our new techniques with a localization step, we obtain the first nearly linear-time algorithm that achieves the optimal rates in the DP-ERM problem with strongly convex and smooth losses.
翻訳日:2024-05-02 20:21:02 公開日:2024-05-01
# Sui Lutris: ブロードキャストとコンセンサスを組み合わせたブロックチェーン

Sui Lutris: A Blockchain Combining Broadcast and Consensus ( http://arxiv.org/abs/2310.18042v2 )

ライセンス: Link先を確認
Same Blackshear, Andrey Chursin, George Danezis, Anastasios Kichidis, Lefteris Kokoris-Kogias, Xun Li, Mark Logan, Ashok Menon, Todd Nowacki, Alberto Sonnino, Brandon Williams, Lu Zhang, (参考訳) Sui Lutrisは、秒以下のファイナリティを持続的に達成した最初のスマートコントラクトプラットフォームである。 これは、単純な支払いだけでなく、さまざまな取引に対して、合意のない合意を採用することで、この大幅な減少を実現する。 以前の作業とは異なり、Swi Lutrisは表現力もスループットも妥協せず、再起動せずに永久に実行できる。 Sui Lutrisは、クリティカルファイナリティパスから呼び出される高スループットのコンセンサスプロトコルとの合意を安全に統合することで、これを実現するが、トランザクションが一貫性のない同時アクセスのリスクがある場合、その解決は総注文が解決されるまで遅らせる。 このようなハイブリッドアーキテクチャの構築は、リコンフィグレーションイベントにおいて特に微妙であり、システムには、潜在的に構成ミスの可能性のあるクライアントの長期的な生存性を損なうことなく、コンセンサスのないパスの安全性を維持する必要がある。 そこで我々は,コンセンサスのないブロックチェーンの安全かつ効率的な再構成を確実に示すための,新しい再構成プロトコルを開発した。 Sui Lutrisは現在運用中であり、Swiスマートコントラクトプラットフォームを支えている。 アカウントの代わりにObjectsを使用することで、オブジェクトをファーストクラスリソースとして公開するスマートコントラクトの安全な実行が可能になる。 われわれの実験では、Swi Lutrisは、最新の最先端のリアルタイムコンセンサスレイテンシ(3秒)と比較して、秒間最大5,000証明書(トランザクションブロック付き150k ops/s)のスループットで0.5秒未満のレイテンシを実現している。 さらに、バリデータのクラッシュ回復を優雅に処理し、再設定時に目に見えるパフォーマンス劣化を損なわない。

Sui Lutris is the first smart-contract platform to sustainably achieve sub-second finality. It achieves this significant decrease by employing consensusless agreement not only for simple payments but for a large variety of transactions. Unlike prior work, Sui Lutris neither compromises expressiveness nor throughput and can run perpetually without restarts. Sui Lutris achieves this by safely integrating consensuless agreement with a high-throughput consensus protocol that is invoked out of the critical finality path but ensures that when a transaction is at risk of inconsistent concurrent accesses, its settlement is delayed until the total ordering is resolved. Building such a hybrid architecture is especially delicate during reconfiguration events, where the system needs to preserve the safety of the consensusless path without compromising the long-term liveness of potentially misconfigured clients. We thus develop a novel reconfiguration protocol, the first to provably show the safe and efficient reconfiguration of a consensusless blockchain. Sui Lutris is currently running in production and underpins the Sui smart-contract platform. Combined with the use of Objects instead of accounts it enables the safe execution of smart contracts that expose objects as a first-class resource. In our experiments Sui Lutris achieves latency lower than 0.5 seconds for throughput up to 5,000 certificates per second (150k ops/s with transaction blocks), compared to the state-of-the-art real-world consensus latencies of 3 seconds. Furthermore, it gracefully handles validators crash-recovery and does not suffer visible performance degradation during reconfiguration.
翻訳日:2024-05-02 20:21:02 公開日:2024-05-01
# 重み付き雑音下での非線形確率勾配の高確率収束境界

High-probability Convergence Bounds for Nonlinear Stochastic Gradient Descent Under Heavy-tailed Noise ( http://arxiv.org/abs/2310.18784v7 )

ライセンス: Link先を確認
Aleksandar Armacki, Pranay Sharma, Gauri Joshi, Dragana Bajovic, Dusan Jakovetic, Soummya Kar, (参考訳) 本研究では,重み付き雑音の存在下でのストリーミングデータ学習の高確率収束保証について検討する。 提案シナリオでは,新たな情報が観測されるにつれて,追加データを保持することなく,オンライン形式でモデルが更新される。 重み付き雑音に対処するため,非線形確率勾配勾配(SGD)の一般的な枠組みを考察し,いくつかの強い結果を得た。 まず、非凸コストと成分的非線形性に対して、指数が雑音や問題パラメータに依存しない$\mathcal{O}\left(t^{-\frac{1}{4}}\right)$に任意の収束速度を確立する。 第二に、強い凸コストと成分の非線形性のために、重み付けされたイテレートの平均に対して$\mathcal{O}\left(t^{-\frac{1}{2}}\right)$に任意に近い速度を定め、指数は再びノイズと問題パラメータから独立する。 最後に、強い凸コストとより広範な非線形性のために、最後の反復の収束を確立し、$\mathcal{O}\left(t^{-\zeta} \right)$で、$\zeta \in (0,1)$は問題パラメータ、ノイズ、非線形性に依存する。 解析的および数値的に示すように、$\zeta$ は与えられた問題設定に対して好まれる非線形性の選択を知らせるのに使うことができる。 クリッピングのみを考慮し、次数$\eta \in (1,2]$の有界雑音モーメントを必要とし、指数が0となる収束率を$\eta \rightarrow 1$とすると、より広範な非線形性クラスと対称密度ノイズに対して高い確率保証を与える。 さらに, 強凸関数の場合, クリッピングが必ずしも最適非線形性であるとは限らないことを解析的, 数値的に示し, 一般の枠組みの価値をさらに強調する。

We study high-probability convergence guarantees of learning on streaming data in the presence of heavy-tailed noise. In the proposed scenario, the model is updated in an online fashion, as new information is observed, without storing any additional data. To combat the heavy-tailed noise, we consider a general framework of nonlinear stochastic gradient descent (SGD), providing several strong results. First, for non-convex costs and component-wise nonlinearities, we establish a convergence rate arbitrarily close to $\mathcal{O}\left(t^{-\frac{1}{4}}\right)$, whose exponent is independent of noise and problem parameters. Second, for strongly convex costs and component-wise nonlinearities, we establish a rate arbitrarily close to $\mathcal{O}\left(t^{-\frac{1}{2}}\right)$ for the weighted average of iterates, with exponent again independent of noise and problem parameters. Finally, for strongly convex costs and a broader class of nonlinearities, we establish convergence of the last iterate, with a rate $\mathcal{O}\left(t^{-\zeta} \right)$, where $\zeta \in (0,1)$ depends on problem parameters, noise and nonlinearity. As we show analytically and numerically, $\zeta$ can be used to inform the preferred choice of nonlinearity for given problem settings. Compared to state-of-the-art, who only consider clipping, require bounded noise moments of order $\eta \in (1,2]$, and establish convergence rates whose exponents go to zero as $\eta \rightarrow 1$, we provide high-probability guarantees for a much broader class of nonlinearities and symmetric density noise, with convergence rates whose exponents are bounded away from zero, even when the noise has finite first moment only. Moreover, in the case of strongly convex functions, we demonstrate analytically and numerically that clipping is not always the optimal nonlinearity, further underlining the value of our general framework.
翻訳日:2024-05-02 20:21:02 公開日:2024-05-01
# AIアライメント: 総合的な調査

AI Alignment: A Comprehensive Survey ( http://arxiv.org/abs/2310.19852v5 )

ライセンス: Link先を確認
Jiaming Ji, Tianyi Qiu, Boyuan Chen, Borong Zhang, Hantao Lou, Kaile Wang, Yawen Duan, Zhonghao He, Jiayi Zhou, Zhaowei Zhang, Fanzhi Zeng, Kwan Yee Ng, Juntao Dai, Xuehai Pan, Aidan O'Gara, Yingshan Lei, Hua Xu, Brian Tse, Jie Fu, Stephen McAleer, Yaodong Yang, Yizhou Wang, Song-Chun Zhu, Yike Guo, Wen Gao, (参考訳) AIアライメントは、AIシステムが人間の意図や価値観に沿って振る舞うようにすることを目的としている。 AIシステムがより有能になるにつれて、ミスアライメントによるリスクも増大する。 この調査では、アライメントのコンセプト、方法論、実践について調べる。 まず、AIアライメントの重要な目的として、ロバストネス、解釈可能性、制御可能性、倫理性(RICE)の4つの原則を特定します。 これら4つの原則に基づいて、現在のアライメント研究の展望を概説し、それらを2つの重要なコンポーネント、前方アライメントと後方アライメントに分解する。 前者はアライメントトレーニングを通じてAIシステムをアライメントさせることを目標とし、後者はシステムのアライメントに関する証拠を取得し、不正なアライメントリスクの悪化を避けるためにそれらを適切に管理することを目的としている。 本研究では,分布シフト下でのフィードバックと学習から学習する手法について考察する。 後方調整では、保証技術とガバナンスの実践について議論する。 また、チュートリアル、論文のコレクション、ブログ投稿、その他のリソースを含むウェブサイト(www.alignmentsurvey.com)もリリースし、継続的に更新しています。

AI alignment aims to make AI systems behave in line with human intentions and values. As AI systems grow more capable, so do risks from misalignment. To provide a comprehensive and up-to-date overview of the alignment field, in this survey, we delve into the core concepts, methodology, and practice of alignment. First, we identify four principles as the key objectives of AI alignment: Robustness, Interpretability, Controllability, and Ethicality (RICE). Guided by these four principles, we outline the landscape of current alignment research and decompose them into two key components: forward alignment and backward alignment. The former aims to make AI systems aligned via alignment training, while the latter aims to gain evidence about the systems' alignment and govern them appropriately to avoid exacerbating misalignment risks. On forward alignment, we discuss techniques for learning from feedback and learning under distribution shift. On backward alignment, we discuss assurance techniques and governance practices. We also release and continually update the website (www.alignmentsurvey.com) which features tutorials, collections of papers, blog posts, and other resources.
翻訳日:2024-05-02 20:21:02 公開日:2024-05-01
# FairSeg: フェアエラー境界スケーリング付きセグメンテーションモデルを用いたフェアネス学習のための大規模医療画像セグメンテーションデータセット

FairSeg: A Large-Scale Medical Image Segmentation Dataset for Fairness Learning Using Segment Anything Model with Fair Error-Bound Scaling ( http://arxiv.org/abs/2311.02189v5 )

ライセンス: Link先を確認
Yu Tian, Min Shi, Yan Luo, Ava Kouhana, Tobias Elze, Mengyu Wang, (参考訳) 人工知能モデルの公正さは、特に医学領域において、人々の幸福と生活にとって医療モデルの公正さが不可欠であるため、近年、注目されている。 フェアネス学習研究を促進するためには、高品質な医療フェアネスデータセットが必要である。 既存の医療フェアネスデータセットはすべて分類作業用であり、医療セグメント化のためのフェアネスデータセットは使用できないが、医療セグメント化は分類と同様に重要な臨床タスクであり、臨床医が評価する準備ができている臓器の異常に関する詳細な空間情報を提供することができる。 本稿では,1万件の被験者を対象とする医学的セグメンテーションのためのフェアネスデータセットであるHarvard-FairSegを提案する。 さらに,各ID群における上位エラーバウンドで損失関数を再重み付けする,公平な誤差バウンドスケーリング手法を提案する。 各アイデンティティグループで高いトレーニングエラーでハードケースに明示的に対処することで、セグメンテーション性能のエクイティを向上できると予想する。 公平な比較を容易にするために、新しいエクイティスケールのセグメンテーション性能指標を用いて、エクイティスケールのDice係数のようなフェアネスの文脈におけるセグメンテーション指標を比較する。 総合的な実験を通して、我々の公正なエラーバウンドスケーリングアプローチは、最先端の公正学習モデルよりも優れているか同等の公平性性能を持つことを示した。 データセットとコードはhttps://ophai.hms.harvard.edu/datasets/harvard-fairseg10kで公開されている。

Fairness in artificial intelligence models has gained significantly more attention in recent years, especially in the area of medicine, as fairness in medical models is critical to people's well-being and lives. High-quality medical fairness datasets are needed to promote fairness learning research. Existing medical fairness datasets are all for classification tasks, and no fairness datasets are available for medical segmentation, while medical segmentation is an equally important clinical task as classifications, which can provide detailed spatial information on organ abnormalities ready to be assessed by clinicians. In this paper, we propose the first fairness dataset for medical segmentation named Harvard-FairSeg with 10,000 subject samples. In addition, we propose a fair error-bound scaling approach to reweight the loss function with the upper error-bound in each identity group, using the segment anything model (SAM). We anticipate that the segmentation performance equity can be improved by explicitly tackling the hard cases with high training errors in each identity group. To facilitate fair comparisons, we utilize a novel equity-scaled segmentation performance metric to compare segmentation metrics in the context of fairness, such as the equity-scaled Dice coefficient. Through comprehensive experiments, we demonstrate that our fair error-bound scaling approach either has superior or comparable fairness performance to the state-of-the-art fairness learning models. The dataset and code are publicly accessible via https://ophai.hms.harvard.edu/datasets/harvard-fairseg10k.
翻訳日:2024-05-02 20:21:02 公開日:2024-05-01
# 画像ベースのバーチャルトライオン:サーベイ

Image-Based Virtual Try-On: A Survey ( http://arxiv.org/abs/2311.04811v3 )

ライセンス: Link先を確認
Dan Song, Xuanpu Zhang, Juan Zhou, Weizhi Nie, Ruofeng Tong, Mohan Kankanhalli, An-An Liu, (参考訳) 画像ベースの仮想試着は、自然に着飾った人物画像を衣服画像で合成することを目的としており、これはオンラインショッピングに革命をもたらし、画像生成に関連トピックを刺激し、研究の意義と商業的可能性の両方を示す。 しかし、現在の研究の進展と商業的応用の間にはギャップがあり、開発を加速するためにこの分野の総合的な概要が欠如している。 本稿では,パイプラインアーキテクチャ,人物表現,トライオン表示,衣料品のワープ,トライオンステージといった重要なモジュールの側面において,最先端技術と方法論を包括的に分析する。 CLIPを用いた新しいセマンティックな基準を提案し、同じデータセット上で一様に実装された評価指標を用いて代表的手法を評価する。 現在のオープンソース手法の量的・質的な評価に加えて、未解決の課題が強調され、今後の研究方向性が注目され、重要なトレンドを特定し、さらなる探索を促すことが期待されている。 均一に実装された評価メトリクス、データセット、収集されたメソッドはhttps://github.com/little-misfit/Survey-Of-Virtual-Try-Onで公開される。

Image-based virtual try-on aims to synthesize a naturally dressed person image with a clothing image, which revolutionizes online shopping and inspires related topics within image generation, showing both research significance and commercial potential. However, there is a gap between current research progress and commercial applications and an absence of comprehensive overview of this field to accelerate the development. In this survey, we provide a comprehensive analysis of the state-of-the-art techniques and methodologies in aspects of pipeline architecture, person representation and key modules such as try-on indication, clothing warping and try-on stage. We propose a new semantic criteria with CLIP, and evaluate representative methods with uniformly implemented evaluation metrics on the same dataset. In addition to quantitative and qualitative evaluation of current open-source methods, unresolved issues are highlighted and future research directions are prospected to identify key trends and inspire further exploration. The uniformly implemented evaluation metrics, dataset and collected methods will be made public available at https://github.com/little-misfit/Survey-Of-Virtual-Try-On.
翻訳日:2024-05-02 20:11:13 公開日:2024-05-01
# ブリッジ次元:高次元制御器の信頼性

Bridging Dimensions: Confident Reachability for High-Dimensional Controllers ( http://arxiv.org/abs/2311.04843v3 )

ライセンス: Link先を確認
Yuang Geng, Jake Baldauf, Souradeep Dutta, Chao Huang, Ivan Ruchkin, (参考訳) 自律システムは、エンド・ツー・エンドの学習ベースのコントローラを使ってますます実装されている。 このようなコントローラは、実際のシステムで実行される決定を行い、イメージを主要なセンシングモダリティの1つとします。 ディープニューラルネットワークは、そのようなコントローラの基本的な構成要素を形成する。 残念ながら、既存のニューラルネットワーク検証ツールは数千の次元の入力にはスケールしない。 本稿では,高次元制御器と全閉ループ検証を接続するための一歩を踏み出した。 我々の重要な洞察は、高次元コントローラの挙動を複数の低次元コントローラで近似できるということである。 低次元コントローラの近似精度と検証可能性のバランスをとるために,我々は最新の検証認識知識蒸留を活用している。 そして,低次元到達度を統計的近似誤差で改善し,高次元制御器に対する高信頼到達性保証を実現する。 トラジェクトリとコントロールアクションに基づく2つのインフレーション手法を調査し、どちらもOpenAIの3つのジムベンチマークで説得力のあるパフォーマンスを示している。

Autonomous systems are increasingly implemented using end-to-end learning-based controllers. Such controllers make decisions that are executed on the real system, with images as one of the primary sensing modalities. Deep neural networks form a fundamental building block of such controllers. Unfortunately, the existing neural-network verification tools do not scale to inputs with thousands of dimensions -- especially when the individual inputs (such as pixels) are devoid of clear physical meaning. This paper takes a step towards connecting exhaustive closed-loop verification with high-dimensional controllers. Our key insight is that the behavior of a high-dimensional controller can be approximated with several low-dimensional controllers. To balance the approximation accuracy and verifiability of our low-dimensional controllers, we leverage the latest verification-aware knowledge distillation. Then, we inflate low-dimensional reachability results with statistical approximation errors, yielding a high-confidence reachability guarantee for the high-dimensional controller. We investigate two inflation techniques -- based on trajectories and control actions -- both of which show convincing performance in three OpenAI gym benchmarks.
翻訳日:2024-05-02 20:11:13 公開日:2024-05-01
# 量子エラー補正のための制御要件とベンチマーク

Control Requirements and Benchmarks for Quantum Error Correction ( http://arxiv.org/abs/2311.07121v2 )

ライセンス: Link先を確認
Yaniv Kurman, Lior Ella, Ramon Szmuk, Oded Wertheim, Benedikt Dorschner, Sam Stanwyck, Yonatan Cohen, (参考訳) 有用なフォールトトレラント量子計算は量子誤り訂正(QEC)をうまく実装することに依存する。 QECでは、量子ゲートと測定を行い、計算量子ビットを安定化させ、古典的な処理を用いて測定結果を推定された論理的パウリフレームの更新や論理的測定結果に変換する。 QECの研究はQEC符号と復号アルゴリズムの開発と評価に重点を置いているが、QEC符号を実行する古典的な制御システムの要求仕様と明確化は欠如している。 本稿では、QEC制御システムの役割、低レイテンシフィードフォワード量子演算の実装の必要性、およびQEC量子計算の古典的ボトルネックに直面する短期ベンチマークを提案する。 これらのベンチマークは、測定とそれに依存する操作の間のレイテンシに基づいており、量子古典的並列化機能や復号スループットなどの異なる制御側面を取り入れている。 動的システム解析を用いて、QEC制御系遅延性能がQEC回路の動作状態を決定する方法を示す:遅延ばらつき、量子計算が不可能な場合、古典的制御子制限ランタイム、古典的演算が量子回路を遅延しない場合、量子演算制限ランタイム。 この分析と提案したベンチマークは、フォールトトレラント量子計算の主成分としての実現に向けて、QEC制御システムの評価と開発を可能にすることを目的としている。

Reaching useful fault-tolerant quantum computation relies on successfully implementing quantum error correction (QEC). In QEC, quantum gates and measurements are performed to stabilize the computational qubits, and classical processing is used to convert the measurements into estimated logical Pauli frame updates or logical measurement results. While QEC research has concentrated on developing and evaluating QEC codes and decoding algorithms, specification and clarification of the requirements for the classical control system running QEC codes are lacking. Here, we elucidate the roles of the QEC control system, the necessity to implement low latency feed-forward quantum operations, and suggest near-term benchmarks that confront the classical bottlenecks for QEC quantum computation. These benchmarks are based on the latency between a measurement and the operation that depends on it and incorporate the different control aspects such as quantum-classical parallelization capabilities and decoding throughput. Using a dynamical system analysis, we show how the QEC control system latency performance determines the operation regime of a QEC circuit: latency divergence, where quantum calculations are unfeasible, classical-controller limited runtime, or quantum-operation limited runtime where the classical operations do not delay the quantum circuit. This analysis and the proposed benchmarks aim to allow the evaluation and development of QEC control systems toward their realization as a main component in fault-tolerant quantum computation.
翻訳日:2024-05-02 20:11:13 公開日:2024-05-01
# ランダムダイナミクスによるページ曲線と複製ワームホール

Page curves and replica wormholes from random dynamics ( http://arxiv.org/abs/2311.07655v3 )

ライセンス: Link先を確認
Jan de Boer, Jildou Hollander, Andrew Rolph, (参考訳) 非単体ページ曲線と、ランダムなダイナミクスを持つ玩具量子系のユニタリティを復元する模擬ワームホールのような寄与の両方をキャプチャする方法を示す。 動機は、重力物理学のこの側面を捉える最も単純な力学モデルを見つけることである。 我々のモデルでは、マイクロカノニカルウィンドウ内でGUE統計を持つハミルトンのアンサンブルで進化する。 平均状態のエントロピーは非ユニタリ曲線を与え、平均エントロピーはユニタリ曲線を与える。

We show how to capture both the non-unitary Page curve and replica wormhole-like contributions that restore unitarity in a toy quantum system with random dynamics. The motivation is to find the simplest dynamical model that captures this aspect of gravitational physics. In our model, we evolve with an ensemble of Hamiltonians with GUE statistics within microcanonical windows. The entropy of the averaged state gives the non-unitary curve, the averaged entropy gives the unitary curve, and the difference comes from matrix index contractions in the Haar averaging that connect the density matrices in a replica wormhole-like manner.
翻訳日:2024-05-02 20:11:13 公開日:2024-05-01
# Uncommonsense Reasoning:Abductive Reasoning about Uncommons

UNcommonsense Reasoning: Abductive Reasoning about Uncommon Situations ( http://arxiv.org/abs/2311.08469v2 )

ライセンス: Link先を確認
Wenting Zhao, Justin T Chiu, Jena D. Hwang, Faeze Brahman, Jack Hessel, Sanjiban Choudhury, Yejin Choi, Xiang Lorraine Li, Alane Suhr, (参考訳) イベントのダイナミクスを正確にモデル化する言語技術は、常識推論を実行しなければなりません。 常識推論を評価する既存の作業は、日常的な日常的な状況について推論することに焦点を当てている。 異常、予期せぬ、そしてありそうもない状況をモデル化する能力を調べるために、我々は非常識な誘惑的推論の課題を探求する。 予期せぬ結果を伴うコンテキストが与えられた場合、このタスクは、予期せぬ結果がコンテキスト内でより起こりやすい説明を生成するために、故意に推論する必要がある。 この目的のために、UNcommonsenseと呼ばれる新しい英語コーパスをキュレートし、リリースする。 そこで,本研究では,人間の説明能力と優れた性能を持つ大言語モデルの性能差を特徴付けるとともに,モデル強化による人文説明が,特異性と多様性のトレードオフによって最高の品質を達成できることを見出した。 最後に、このタスク上でオープンでアクセシブルな言語モデルをトレーニングするために、いくつかの模倣学習アルゴリズムを実験する。 バニラ監督による微調整手法と比較して、これらの手法は人間の評価者によって判断される常識的および非常識的誘惑的推論の損失率を一貫して減少させる。

Language technologies that accurately model the dynamics of events must perform commonsense reasoning. Existing work evaluating commonsense reasoning focuses on making inferences about common, everyday situations. To instead investigate the ability to model unusual, unexpected, and unlikely situations, we explore the task of uncommonsense abductive reasoning. Given a piece of context with an unexpected outcome, this task requires reasoning abductively to generate an explanation that makes the unexpected outcome more likely in the context. To this end, we curate and release a new English language corpus called UNcommonsense. We characterize the performance differences between human explainers and the best-performing large language models, finding that model-enhanced human-written explanations achieve the highest quality by trading off between specificity and diversity. Finally, we experiment with several imitation learning algorithms to train open and accessible language models on this task. When compared with the vanilla supervised fine-tuning approach, these methods consistently reduce lose rates on both common and uncommonsense abductive reasoning judged by human evaluators.
翻訳日:2024-05-02 20:11:13 公開日:2024-05-01
# HiH:非拘束歩行認識のための階層ネットワークにおけるマルチモーダル階層

HiH: A Multi-modal Hierarchy in Hierarchy Network for Unconstrained Gait Recognition ( http://arxiv.org/abs/2311.11210v2 )

ライセンス: Link先を確認
Lei Wang, Bo Liu, Yinchi Ma, Fangfang Liang, Nawei Guo, (参考訳) 歩行認識は、制御された環境において有望な進歩を遂げてきたが、視界の変化、閉塞、様々な歩行速度といった課題のために、制約のない環境では著しく苦労している。 さらに、複数のモダリティを融合しようとする試みは、特に屋外のシナリオにおいて、モダリティの非互換性のために、制限された改善に直面していることが多い。 これらの問題に対処するために、我々は、シルエットを統合し、堅牢な歩行認識のためのシーケンスをポーズする階層ネットワーク(HiH)のマルチモーダル階層を提案する。 HiHは階層的ゲイト分解器(HGD)モジュールを用いてシルエットデータから一般的なゲイトパターンの深さ方向およびモジュール内階層的な検査を行う。 このアプローチは、全身の運動力学から詳細な手足の動きまでの動き階層を捉え、複数の空間分解能にまたがる歩行特性の表現を容易にする。 これを補完し、2次元の関節配列に基づく補助枝は、歩行分析の空間的・時間的側面を豊かにする。 ポーズ誘導型空間アテンションのための変形性空間拡張(DSE)モジュールと、学習された時間オフセットを通じて運動力学を整列させる変形性時間アライメント(DTA)モジュールを用いる。 さまざまな屋内および屋外データセットにわたる広範囲な評価は、HiHの最先端のパフォーマンスを示し、正確性と効率のバランスの取れたトレードオフを確認している。

Gait recognition has achieved promising advances in controlled settings, yet it significantly struggles in unconstrained environments due to challenges such as view changes, occlusions, and varying walking speeds. Additionally, efforts to fuse multiple modalities often face limited improvements because of cross-modality incompatibility, particularly in outdoor scenarios. To address these issues, we present a multi-modal Hierarchy in Hierarchy network (HiH) that integrates silhouette and pose sequences for robust gait recognition. HiH features a main branch that utilizes Hierarchical Gait Decomposer (HGD) modules for depth-wise and intra-module hierarchical examination of general gait patterns from silhouette data. This approach captures motion hierarchies from overall body dynamics to detailed limb movements, facilitating the representation of gait attributes across multiple spatial resolutions. Complementing this, an auxiliary branch, based on 2D joint sequences, enriches the spatial and temporal aspects of gait analysis. It employs a Deformable Spatial Enhancement (DSE) module for pose-guided spatial attention and a Deformable Temporal Alignment (DTA) module for aligning motion dynamics through learned temporal offsets. Extensive evaluations across diverse indoor and outdoor datasets demonstrate HiH's state-of-the-art performance, affirming a well-balanced trade-off between accuracy and efficiency.
翻訳日:2024-05-02 20:11:13 公開日:2024-05-01
# 複数の人間で補うことを学ぶ

Learning to Complement with Multiple Humans ( http://arxiv.org/abs/2311.13172v2 )

ライセンス: Link先を確認
Zheng Zhang, Cuong Nguyen, Kevin Wells, Thanh-Toan Do, Gustavo Carneiro, (参考訳) 実世界の画像分類タスクは複雑になりがちで、専門家のラベルラが画像に存在するクラスについて不確実な場合があり、ノイズラベル(LNL)による学習が問題となる。 LNLタスクの不適切さは、強い仮定の採用やトレーニングイメージ毎の複数のノイズラベルの使用を必要とするため、正確なモデルは独立して機能するが、人間とAIの協調分類(HAI-CC)の最適化に失敗する。 これらのLNLメソッドとは異なり、HAI-CCは人間の専門知識とAI能力の相乗効果を活用することを目的としている。 本稿では,LECOMH(Learning to Complement with Multiple Humans)アプローチを導入することで,このギャップに対処する。 LECOMHは、クリーンなラベルに依存することなく、ノイズの多いラベルから学習するように設計されている。 さらに,HAI-CC法を評価するために,トレーニングとテストの両方のための複数のノイズラベルを特徴とする新しいベンチマークを提案する。 これらのベンチマークの定量的比較を通じて、LECOMHは、競合するHAI-CCアプローチ、ヒューマンラベル、マルチラタラーニング、およびノイズの多いラベル学習手法をさまざまなデータセットで一貫して上回り、現実のイメージ分類問題に対処するための有望なソリューションを提供する。

Real-world image classification tasks tend to be complex, where expert labellers are sometimes unsure about the classes present in the images, leading to the issue of learning with noisy labels (LNL). The ill-posedness of the LNL task requires the adoption of strong assumptions or the use of multiple noisy labels per training image, resulting in accurate models that work well in isolation but fail to optimise human-AI collaborative classification (HAI-CC). Unlike such LNL methods, HAI-CC aims to leverage the synergies between human expertise and AI capabilities but requires clean training labels, limiting its real-world applicability. This paper addresses this gap by introducing the innovative Learning to Complement with Multiple Humans (LECOMH) approach. LECOMH is designed to learn from noisy labels without depending on clean labels, simultaneously maximising collaborative accuracy while minimising the cost of human collaboration, measured by the number of human expert annotations required per image. Additionally, new benchmarks featuring multiple noisy labels for both training and testing are proposed to evaluate HAI-CC methods. Through quantitative comparisons on these benchmarks, LECOMH consistently outperforms competitive HAI-CC approaches, human labellers, multi-rater learning, and noisy-label learning methods across various datasets, offering a promising solution for addressing real-world image classification challenges.
翻訳日:2024-05-02 20:11:13 公開日:2024-05-01
# 隠れても定量化されていない:ランダム化試行を用いた共起強度の低い境界

Hidden yet quantifiable: A lower bound for confounding strength using randomized trials ( http://arxiv.org/abs/2312.03871v3 )

ライセンス: Link先を確認
Piersilvio De Bartolomeis, Javier Abad, Konstantin Donhauser, Fanny Yang, (参考訳) 急速ペースの精密医療の時代には、臨床における新しい治療法を適切に評価する上で、観察的研究が重要な役割を担っている。 しかし、観測されていないコンバウンディングは、非ランダム化データから引き出された因果関係の結論を著しく損なう可能性がある。 本稿では,ランダム化試行を利用して未観測のコンバウンディングを定量化する新しい手法を提案する。 まず、所定の閾値以上の強度で観測不能な散乱を検出する統計的試験を設計する。 そして、このテストを用いて、観測されていない起伏強度の漸近的に有効な下界を推定する。 いくつかの合成および半合成データセットに対する統計的テストの有効性と妥当性を評価する。 さらに、我々の下界が、現実の環境で観測されていない共起の存在と存在を正確に識別する方法を示す。

In the era of fast-paced precision medicine, observational studies play a major role in properly evaluating new treatments in clinical practice. Yet, unobserved confounding can significantly compromise causal conclusions drawn from non-randomized data. We propose a novel strategy that leverages randomized trials to quantify unobserved confounding. First, we design a statistical test to detect unobserved confounding with strength above a given threshold. Then, we use the test to estimate an asymptotically valid lower bound on the unobserved confounding strength. We evaluate the power and validity of our statistical test on several synthetic and semi-synthetic datasets. Further, we show how our lower bound can correctly identify the absence and presence of unobserved confounding in a real-world setting.
翻訳日:2024-05-02 20:11:13 公開日:2024-05-01
# ProCoT:大規模言語モデル(LLM)による学生の批判的思考と書き込みの促進

ProCoT: Stimulating Critical Thinking and Writing of Students through Engagement with Large Language Models (LLMs) ( http://arxiv.org/abs/2312.09801v2 )

ライセンス: Link先を確認
Tosin Adewumi, Lama Alkhaled, Claudia Buck, Sergio Hernandez, Saga Brilioth, Mkpe Kekung, Yelvin Ragimov, Elisa Barney, (参考訳) 本稿では,ProCoT(Probing Chain-of-Thought)と呼ばれる,ChatGPT(Large Language Model, LLM)を用いた学生の不正行為を防止し,能動的学習の強化を図る。 LLMは教育や他の多くの分野を混乱させてきた。 学生が騙されるのを恐れて、多くの人々は使用を禁止した。 これらのLSMは幻覚としても知られている。 65名の学生を対象に,ProCoTを用いて2つのコースで研究を行った。 各コースの学生は、4組の集合から1問の質問をLCMに促し、ピアレビューされた基準を用いてLPM出力のステートメントを肯定・否定するよう求められた。 その結果,(1)ProCoTは,lLMのみの出力とProCoTの出力とを比較して学生の創造的・批判的思考と文章作成を刺激し,(2)ProCoTは既存のLLM,特にChatGPTの出力とLLMのProCoTの出力とを比較して不正行為を防止できることがわかった。 また、ほとんどの学生は、通常冗長である LLM よりも少ない単語で回答することを好む。 最初のコースの生徒の平均語数は、ChatGPT (v3.5) と Phind (v8) はそれぞれ208, 391, 383である。

We introduce a novel writing method called Probing Chain-of-Thought (ProCoT), which potentially prevents students from cheating using a Large Language Model (LLM), such as ChatGPT, while enhancing their active learning. LLMs have disrupted education and many other fields. For fear of students cheating, many have resorted to banning their use. These LLMs are also known for hallucinations. We conduct studies with ProCoT in two different courses with 65 students. The students in each course were asked to prompt an LLM of their choice with one question from a set of four and required to affirm or refute statements in the LLM output by using peer-reviewed references. The results show two things: (1) ProCoT stimulates creative/critical thinking and writing of students through engagement with LLMs when we compare the LLM-only output to ProCoT output and (2) ProCoT can prevent cheating because of clear limitations in existing LLMs, particularly ChatGPT, when we compare students' ProCoT output to LLM ProCoT output. We also discover that most students prefer to give answers in fewer words than LLMs, which are typically verbose. The average word counts for students in the first course, ChatGPT (v3.5), and Phind (v8) are 208, 391 and 383, respectively.
翻訳日:2024-05-02 20:11:13 公開日:2024-05-01
# 会話レコメンダシステムにおける知識グラフと事前学習言語モデルによる表現学習の強化

Knowledge Graphs and Pre-trained Language Models enhanced Representation Learning for Conversational Recommender Systems ( http://arxiv.org/abs/2312.10967v3 )

ライセンス: Link先を確認
Zhangchi Qiu, Ye Tao, Shirui Pan, Alan Wee-Chung Liew, (参考訳) 会話推薦システム(CRS)は、自然言語の対話と対話履歴を利用してユーザの好みを推測し、正確なレコメンデーションを提供する。 会話のコンテキストや背景知識が限られているため、既存のCRSは知識グラフのような外部ソースに依存してコンテキストとモデルエンティティを相互関係に基づいて強化する。 しかし、これらの手法はエンティティ内の豊富な固有情報を無視する。 これを解決するために,知識グラフと事前学習言語モデルの両方を活用する知識強化エンティティ表現学習(KERL)フレームワークを導入し,CRSのエンティティの意味的理解を改善する。 KERLフレームワークでは、エンティティのテキスト記述は事前訓練された言語モデルを介して符号化され、知識グラフはそれらのエンティティの表現を強化するのに役立ちます。 また,会話中の実体の時間的情報を効果的に捉えるために位置符号化を用いる。 次に、強化されたエンティティ表現を使用して、より情報のあるリコメンデーションのためにエンティティとコンテキストの両方を融合するレコメンデーションコンポーネントと、応答テキストで情報的エンティティ関連情報を生成する対話コンポーネントを開発する。 本研究は,Wiki Movie Knowledge Graph (WikiMKG) という,エンティティ記述が整合した高品質な知識グラフを構築した。 実験の結果,KERLはレコメンデーションと応答生成の両タスクにおいて,最先端の結果が得られることがわかった。

Conversational recommender systems (CRS) utilize natural language interactions and dialogue history to infer user preferences and provide accurate recommendations. Due to the limited conversation context and background knowledge, existing CRSs rely on external sources such as knowledge graphs to enrich the context and model entities based on their inter-relations. However, these methods ignore the rich intrinsic information within entities. To address this, we introduce the Knowledge-Enhanced Entity Representation Learning (KERL) framework, which leverages both the knowledge graph and a pre-trained language model to improve the semantic understanding of entities for CRS. In our KERL framework, entity textual descriptions are encoded via a pre-trained language model, while a knowledge graph helps reinforce the representation of these entities. We also employ positional encoding to effectively capture the temporal information of entities in a conversation. The enhanced entity representation is then used to develop a recommender component that fuses both entity and contextual representations for more informed recommendations, as well as a dialogue component that generates informative entity-related information in the response text. A high-quality knowledge graph with aligned entity descriptions is constructed to facilitate our study, namely the Wiki Movie Knowledge Graph (WikiMKG). The experimental results show that KERL achieves state-of-the-art results in both recommendation and response generation tasks.
翻訳日:2024-05-02 20:11:13 公開日:2024-05-01
# 構造付き時系列データ学習のための体積保存変換器

Volume-Preserving Transformers for Learning Time Series Data with Structure ( http://arxiv.org/abs/2312.11166v2 )

ライセンス: Link先を確認
Benedikt Brantner, Guillaume de Romemont, Michael Kraus, Zeyuan Li, (参考訳) 過去数年間のニューラルネットワーク研究における多くのトレンドの2つが、ある。 一 力学系の学習、特に長寿命記憶ネットワーク(LSTM)のようなリカレントニューラルネットワークの学習 (II)自然言語処理(NLP)タスクのためのトランスフォーマーニューラルネットワークの導入。 これらの傾向はどちらも膨大なトラクションを生み出しており、特に第2の傾向は、トランスフォーマーネットワークがNLPの分野を支配していることである。 これら2つのトレンドの交差点でいくつかの作業が行われたが、これらの取り組みは、物理的なシステムの設定のためにアーキテクチャを調整することなく、直接バニラ変圧器を使用することに限られていた。 この研究では、トランスフォーマーにインスパイアされたニューラルネットワークを使用して力学系を学習し、さらに(初めて)長期的安定性を向上させるために構造保存特性を組み込んだ。 これは、ニューラルネットワークを現実世界のアプリケーションに適用する際の大きな利点である。

Two of the many trends in neural network research of the past few years have been (i) the learning of dynamical systems, especially with recurrent neural networks such as long short-term memory networks (LSTMs) and (ii) the introduction of transformer neural networks for natural language processing (NLP) tasks. Both of these trends have created enormous amounts of traction, particularly the second one: transformer networks now dominate the field of NLP. Even though some work has been performed on the intersection of these two trends, those efforts was largely limited to using the vanilla transformer directly without adjusting its architecture for the setting of a physical system. In this work we use a transformer-inspired neural network to learn a dynamical system and furthermore (for the first time) imbue it with structure-preserving properties to improve long-term stability. This is shown to be of great advantage when applying the neural network to real world applications.
翻訳日:2024-05-02 20:11:13 公開日:2024-05-01
# 人間のフィードバックからの反復的選好学習:KL制約下でのRLHFのブリッジ理論と実践

Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint ( http://arxiv.org/abs/2312.11456v4 )

ライセンス: Link先を確認
Wei Xiong, Hanze Dong, Chenlu Ye, Ziqi Wang, Han Zhong, Heng Ji, Nan Jiang, Tong Zhang, (参考訳) 本稿では,RLHF(Reinforcement Learning from Human Feedback)を用いた生成モデルのアライメント過程について検討する。 まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索の欠如として挙げる。 そして、RLHFの数学的原理を理解するために、RLHFの標準的な数学的定式化、逆KL正規化文脈帯域を考える。 広く実用化されているにもかかわらず、この定式化の厳密な理論的分析は依然として残っている。 我々は、オフライン、オンライン、ハイブリッドの3つの異なる設定でその振る舞いを調査し、有限サンプル理論的保証を持つ効率的なアルゴリズムを提案する。 実践的な応用に向けて、我々のフレームワークは、情報理論的政策改善のオラクルを堅牢に近似することで、自然界においていくつかの新しいRLHFアルゴリズムを生み出している。 これには、オンライン設定のためのDirect Preference Optimization(DPO)アルゴリズムの反復バージョンと、オフラインシナリオのためのマルチステップのリジェクションサンプリング戦略が含まれる。 大規模言語モデルの実世界のアライメント実験に関する実証実験により,提案手法がDPOやRejection Smpling Optimization (RSO)のような既存の強力なベースラインをはるかに超えることを示した。

This paper studies the alignment process of generative models with Reinforcement Learning from Human Feedback (RLHF). We first identify the primary challenges of existing popular methods like offline PPO and offline DPO as lacking in strategical exploration of the environment. Then, to understand the mathematical principle of RLHF, we consider a standard mathematical formulation, the reverse-KL regularized contextual bandit for RLHF. Despite its widespread practical application, a rigorous theoretical analysis of this formulation remains open. We investigate its behavior in three distinct settings -- offline, online, and hybrid -- and propose efficient algorithms with finite-sample theoretical guarantees. Moving towards practical applications, our framework, with a robust approximation of the information-theoretical policy improvement oracle, naturally gives rise to several novel RLHF algorithms. This includes an iterative version of the Direct Preference Optimization (DPO) algorithm for online settings, and a multi-step rejection sampling strategy for offline scenarios. Our empirical evaluations on real-world alignment experiment of large language model demonstrate that these proposed methods significantly surpass existing strong baselines, such as DPO and Rejection Sampling Optimization (RSO), showcasing the connections between solid theoretical foundations and their potent practical implementations.
翻訳日:2024-05-02 20:11:13 公開日:2024-05-01
# 量子気象学における不定因数順序の利点の再評価

Reassessing the advantage of indefinite causal orders for quantum metrology ( http://arxiv.org/abs/2312.12172v3 )

ライセンス: Link先を確認
Raphaël Mothe, Cyril Branciard, Alastair A. Abbott, (参考訳) 量子スイッチ(英: quantum switch)は、不定因数順序のプロセスの標準的な例であり、量子メトロジーの分野における特定のタスクに対して、特定の因数順序を持つプロセスに対して様々な利点をもたらすと主張されている。 この研究において、これらの利点のいくつかは、もしより公平な比較がなされたとしても、実際には成り立たないと論じる。 この目的のために、量子フィッシャー情報によって定量化された性能と、不確定な因果順序過程の異なるクラスと、与えられたメロジカルタスクにおける因果戦略の適切な比較を可能にするフレームワークを検討する。 より一般的には、最近提案された因果順序の古典的あるいは量子的な制御を持つ回路のクラスを考えると、不定因果順序の過程が不定因果順序の過程に対して有利であり、不定因果順序の量子メトロジーに関する関心を付与する、という異なる例が生まれる。 その結果、様々な例において、物理的に実現可能であることが知られている因果順序の量子制御を持つ量子回路のクラスは、因果重畳を持つ量子回路のクラスと同様に因果重畳を持つ因果順序の量子回路よりも厳密な優位性を持つことが示された。 したがって、このクラスの考察は、不定因数順序戦略が量子力学において明確な因数順序戦略より厳密に優れているという新たな証拠を提供する。

The quantum switch, the canonical example of a process with indefinite causal order, has been claimed to provide various advantages over processes with definite causal orders for some particular tasks in the field of quantum metrology. In this work, we argue that some of these advantages in fact do not hold if a fairer comparison is made. To this end, we consider a framework that allows for a proper comparison between the performance, quantified by the quantum Fisher information, of different classes of indefinite causal order processes and that of causal strategies on a given metrological task. More generally, by considering the recently proposed classes of circuits with classical or quantum control of the causal order, we come up with different examples where processes with indefinite causal order offer (or not) an advantage over processes with definite causal order, qualifying the interest of indefinite causal order regarding quantum metrology. As it turns out, for a range of examples, the class of quantum circuits with quantum control of causal order, which are known to be physically realizable, is shown to provide a strict advantage over causally ordered quantum circuits as well as over the class of quantum circuits with causal superposition. Thus, the consideration of this class provides new evidence that indefinite causal order strategies can strictly outperform definite causal order strategies in quantum metrology.
翻訳日:2024-05-02 20:11:13 公開日:2024-05-01
# Graphene: AI生成アタックグラフによるインフラストラクチャセキュリティ姿勢分析

Graphene: Infrastructure Security Posture Analysis with AI-generated Attack Graphs ( http://arxiv.org/abs/2312.13119v2 )

ライセンス: Link先を確認
Xin Jin, Charalampos Katsis, Fan Sang, Jiahao Sun, Elisa Bertino, Ramana Rao Kompella, Ashish Kundu, (参考訳) サイバーセキュリティ違反の急激な発生は、ネットワークインフラストラクチャの進展に重大な制限を課し、データ漏洩、財政的損失、個人に対する潜在的損害、および本質的なサービスの破壊につながる。 現在のセキュリティの状況は、脆弱性分析を包含し、これらの脆弱性を攻撃経路として潜在的に悪用する可能性のある総合的なセキュリティアセスメントソリューションの緊急開発を要求する。 本稿では,コンピューティングインフラストラクチャのセキュリティ状態の詳細な解析を行うための高度なシステムであるGrapheneを提案する。 デバイスの詳細やソフトウェアバージョンといったユーザが提供する情報を使用して、Grapheneは包括的なセキュリティアセスメントを実行する。 この評価には、関連する脆弱性を特定し、敵が悪用できる潜在的な攻撃グラフを構築することが含まれる。 さらに、Grapheneはこれらの攻撃パスの悪用性を評価し、スコアリング機構を通じて全体的なセキュリティ姿勢を定量化する。 このシステムは、ハードウェア、システム、ネットワーク、暗号化を含むセキュリティ層を分析することによって、全体的なアプローチを取る。 さらに、Grapheneはこれらのレイヤ間の相互接続を掘り下げ、あるレイヤの脆弱性をどのように活用して他のレイヤの脆弱性を悪用するかを探る。 本稿では,Grapheneで実装されたエンドツーエンドパイプラインについて述べる。

The rampant occurrence of cybersecurity breaches imposes substantial limitations on the progress of network infrastructures, leading to compromised data, financial losses, potential harm to individuals, and disruptions in essential services. The current security landscape demands the urgent development of a holistic security assessment solution that encompasses vulnerability analysis and investigates the potential exploitation of these vulnerabilities as attack paths. In this paper, we propose Graphene, an advanced system designed to provide a detailed analysis of the security posture of computing infrastructures. Using user-provided information, such as device details and software versions, Graphene performs a comprehensive security assessment. This assessment includes identifying associated vulnerabilities and constructing potential attack graphs that adversaries can exploit. Furthermore, Graphene evaluates the exploitability of these attack paths and quantifies the overall security posture through a scoring mechanism. The system takes a holistic approach by analyzing security layers encompassing hardware, system, network, and cryptography. Furthermore, Graphene delves into the interconnections between these layers, exploring how vulnerabilities in one layer can be leveraged to exploit vulnerabilities in others. In this paper, we present the end-to-end pipeline implemented in Graphene, showcasing the systematic approach adopted for conducting this thorough security analysis.
翻訳日:2024-05-02 20:11:13 公開日:2024-05-01
# 騒音測定は重要で、国勢調査製品のデザインはずっと重要

Noisy Measurements Are Important, the Design of Census Products Is Much More Important ( http://arxiv.org/abs/2312.14191v2 )

ライセンス: Link先を確認
John M. Abowd, (参考訳) McCartan et al (2023) は「国勢調査データ利用者のために差分プライバシー業務を行う」と呼びかけている。 このコメントは、2020年の国勢調査ノイズ計測ファイル(NMFs)が、この嘆願の最良の焦点ではない理由を説明している。 2021年8月、62人の著名な研究者が2020年国勢調査のために展開された差分プライバシーシステムの直接出力を要求した手紙は、12年の国勢調査データ製品の設計における学術コミュニティの関与を示唆している。 NMFは、2020年国勢調査開示回避システム(Census Disclosure Avoidance System)が後処理前に作成した生の統計データであり、クエリ戦略のアウトプットの1つである。 最も重要なコンポーネントは、クエリのワークロード出力である。 クエリのワークロードを最適化する - Redistricting Data (P.L. 94-171) 概要ファイル。 ノイズの少ない測定値、後処理バイアスがなく、各公表された統計データに対する開示回避からの不確実性を直接見積もることもできる。

McCartan et al. (2023) call for "making differential privacy work for census data users." This commentary explains why the 2020 Census Noisy Measurement Files (NMFs) are not the best focus for that plea. The August 2021 letter from 62 prominent researchers asking for production of the direct output of the differential privacy system deployed for the 2020 Census signaled the engagement of the scholarly community in the design of decennial census data products. NMFs, the raw statistics produced by the 2020 Census Disclosure Avoidance System before any post-processing, are one component of that design-the query strategy output. The more important component is the query workload output-the statistics released to the public. Optimizing the query workload-the Redistricting Data (P.L. 94-171) Summary File, specifically-could allow the privacy-loss budget to be more effectively managed. There could be fewer noisy measurements, no post-processing bias, and direct estimates of the uncertainty from disclosure avoidance for each published statistic.
翻訳日:2024-05-02 20:01:24 公開日:2024-05-01
# GenCast:中距離気象の拡散に基づくアンサンブル予測

GenCast: Diffusion-based ensemble forecasting for medium-range weather ( http://arxiv.org/abs/2312.15796v2 )

ライセンス: Link先を確認
Ilan Price, Alvaro Sanchez-Gonzalez, Ferran Alet, Tom R. Andersson, Andrew El-Kadi, Dominic Masters, Timo Ewalds, Jacklynn Stott, Shakir Mohamed, Peter Battaglia, Remi Lam, Matthew Willson, (参考訳) 天気予報は基本的に不確実であるため、危険天候の警告から再生可能エネルギーの使用計画まで、予測可能な気象シナリオの範囲を予測することは重要な決定に不可欠である。 本稿では,世界最上位の中距離気象予測である欧州中距離予報センター(ECMWF)のアンサンブル予測であるENSよりも高い技術と速度を持つ確率的気象モデルであるGenCastを紹介する。 数値天気予報(NWP)に基づく従来の手法とは異なり、GenCastは機械学習の天気予報(MLWP)手法であり、数十年にわたる分析データに基づいて訓練されている。 GenCastは、12時間のステップと0.25度の緯度で、80以上の地表と大気の変数に対して8分で、確率的な15日間の世界的な予測をまとめている。 評価した1320の目標の97.4%よりも高いスキルを持ち、極端な天候、熱帯のサイクロン、風力発電を予測できる。 この作業は、運用天気予報の次の章を開くのに役立ち、重要な気象に依存した決定がより正確かつ効率よく行われる。

Weather forecasts are fundamentally uncertain, so predicting the range of probable weather scenarios is crucial for important decisions, from warning the public about hazardous weather, to planning renewable energy use. Here, we introduce GenCast, a probabilistic weather model with greater skill and speed than the top operational medium-range weather forecast in the world, the European Centre for Medium-Range Forecasts (ECMWF)'s ensemble forecast, ENS. Unlike traditional approaches, which are based on numerical weather prediction (NWP), GenCast is a machine learning weather prediction (MLWP) method, trained on decades of reanalysis data. GenCast generates an ensemble of stochastic 15-day global forecasts, at 12-hour steps and 0.25 degree latitude-longitude resolution, for over 80 surface and atmospheric variables, in 8 minutes. It has greater skill than ENS on 97.4% of 1320 targets we evaluated, and better predicts extreme weather, tropical cyclones, and wind power production. This work helps open the next chapter in operational weather forecasting, where critical weather-dependent decisions are made with greater accuracy and efficiency.
翻訳日:2024-05-02 20:01:24 公開日:2024-05-01
# ヒューリスティックスの進化:大規模言語モードを用いた効率的な自動アルゴリズム設計を目指して

Evolution of Heuristics: Towards Efficient Automatic Algorithm Design Using Large Language Mode ( http://arxiv.org/abs/2401.02051v2 )

ライセンス: Link先を確認
Fei Liu, Xialiang Tong, Mingxuan Yuan, Xi Lin, Fu Luo, Zhenkun Wang, Zhichao Lu, Qingfu Zhang, (参考訳) ヒューリスティックスは複雑な探索と最適化の問題に取り組むのに不可欠である。 しかし、手動のヒューリスティックデザインは退屈で、人間の直感と経験がかなり必要である。 本稿では,Large Language Models(LLM)とEvolutionary Computation(EC)による自動ヒューリスティックデザイン(AHD)の相乗効果を利用した新しいパラダイムであるEoHを紹介する。 EoHは言語記述を通じてヒューリスティックな考えを表し、LLMによって生成された思考と呼ばれ、それが実行可能コード表現に変換される。 進化的フレームワークにおける思考とコードの共進化は、計算コストを軽減しつつ、優れたAHDパフォーマンスを提供する。 3種類の組合せ最適化ベンチマークの総合的な評価は、既存のAHD法に対するEoHの業績を実証している。 特に、EoHはFunSearchを抜いてコードの進化に重点を置いており、オンラインのビンパッキング問題において計算予算(LLMへのクエリ)が著しく少ない優れたヒューリスティックを識別している。 再現性とアクセシビリティを向上させるため、ソースコードはhttps://github.com/FeiLiu36/EoHである。

Heuristics are indispensable for tackling complex search and optimization problems. However, manual heuristic design is tedious and demands significant human intuition and experience. This paper introduces Evolution of Heuristic (EoH), a novel paradigm that leverages the synergy between Large Language Models (LLMs) and Evolutionary Computation (EC) for Automatic Heuristic Design (AHD). EoH represents heuristic ideas through linguistic descriptions, termed thoughts, generated by LLMs, which are then translated into executable code representations. The coevolution of thoughts and codes within an evolutionary framework offers superior AHD performance while mitigating computational expenses. Comprehensive evaluations on three types of combinatorial optimization benchmarks demonstrate EoH's outperformance against existing AHD methods. Notably, EoH surpasses FunSearch, a concurrent work focus on code evolution, identifying superior heuristics with significantly fewer computational budgets (i.e., queries to LLMs) on online bin packing problem. To foster reproducibility and accessibility, the source code is https://github.com/FeiLiu36/EoH.
翻訳日:2024-05-02 20:01:24 公開日:2024-05-01
# 階層的正規化を伴う医用コード中心マルチモーダルコントラスト EHR モデルによる次の来訪診断予測

Next Visit Diagnosis Prediction via Medical Code-Centric Multimodal Contrastive EHR Modelling with Hierarchical Regularisation ( http://arxiv.org/abs/2401.11648v5 )

ライセンス: Link先を確認
Heejoon Koo, (参考訳) エレクトロニック・ヘルス・レコード(EHR)を用いた次の来院診断の予測は、医療機関と患者双方の積極的な将来の計画策定に不可欠である。 しかしながら、多くの先行研究は、EHRデータに固有の不均一性や階層性に十分対応していないため、必然的に準最適性能につながる。 そこで我々は, 階層的正規化を伴う新しい医用コード中心型マルチモーダル・コントラスト学習フレームワークであるNECHOを提案する。 まず, 医用コード, 人口統計, 臨床記録を含む多面的情報を, 整形ネットワーク設計と2つの対の両モードのコントラスト的損失を用いて統合し, すべて医療用コード表現を中心に展開する。 また,EHRデータの階層構造を学習するために,医療オントロジーにおける親レベル情報を用いてモダリティ固有のエンコーダを正規化する。 MIMIC-IIIデータに対する一連の実験により,本手法の有効性が示された。

Predicting next visit diagnosis using Electronic Health Records (EHR) is an essential task in healthcare, critical for devising proactive future plans for both healthcare providers and patients. Nonetheless, many preceding studies have not sufficiently addressed the heterogeneous and hierarchical characteristics inherent in EHR data, inevitably leading to sub-optimal performance. To this end, we propose NECHO, a novel medical code-centric multimodal contrastive EHR learning framework with hierarchical regularisation. First, we integrate multifaceted information encompassing medical codes, demographics, and clinical notes using a tailored network design and a pair of bimodal contrastive losses, all of which pivot around a medical codes representation. We also regularise modality-specific encoders using a parental level information in medical ontology to learn hierarchical structure of EHR data. A series of experiments on MIMIC-III data demonstrates effectiveness of our approach.
翻訳日:2024-05-02 20:01:24 公開日:2024-05-01
# クロスバリデーションコンフォーマルリスク制御

Cross-Validation Conformal Risk Control ( http://arxiv.org/abs/2401.11974v2 )

ライセンス: Link先を確認
Kfir M. Cohen, Sangwoo Park, Osvaldo Simeone, Shlomo Shamai, (参考訳) コンフォーマルリスク制御(CRC)は、従来の点予測器にポストホックを適用してキャリブレーションを保証する手法である。 CRCを用いて共形予測(CP)を一般化し、点予測器から抽出された設定予測器に対して校正を保証し、誤発見の確率や偽陰率などのリスク関数を制御する。 オリジナルのCRCでは、トレーニングデータセットと検証データセットを分けるために利用可能なデータセットが必要である。 データ可用性が制限された場合、これは問題になり、結果として非効率なセット予測が生じる。 本稿では,従来のCRCの検証ではなく,クロスバリデーションに基づく新しいCRC手法を提案する。 提案したクロスバリデーションCRC (CV-CRC) は、ジャッキニフェミンマックスのバージョンをCPからCRCに拡張し、幅広いリスク関数の制御を可能にした。 CV-CRCは、設定された予測子の平均リスクに関する理論的保証を提供する。 さらに, CV-CRCは, 利用可能なデータに制限がある場合に, CRCに対する平均設定サイズを低減できることを示す。

Conformal risk control (CRC) is a recently proposed technique that applies post-hoc to a conventional point predictor to provide calibration guarantees. Generalizing conformal prediction (CP), with CRC, calibration is ensured for a set predictor that is extracted from the point predictor to control a risk function such as the probability of miscoverage or the false negative rate. The original CRC requires the available data set to be split between training and validation data sets. This can be problematic when data availability is limited, resulting in inefficient set predictors. In this paper, a novel CRC method is introduced that is based on cross-validation, rather than on validation as the original CRC. The proposed cross-validation CRC (CV-CRC) extends a version of the jackknife-minmax from CP to CRC, allowing for the control of a broader range of risk functions. CV-CRC is proved to offer theoretical guarantees on the average risk of the set predictor. Furthermore, numerical experiments show that CV-CRC can reduce the average set size with respect to CRC when the available data are limited.
翻訳日:2024-05-02 20:01:24 公開日:2024-05-01
# AIに基づく遠隔生体認証の規制 : 禁止,監査,および公開データベース登録の公衆需要調査

Regulating AI-Based Remote Biometric Identification. Investigating the Public Demand for Bans, Audits, and Public Database Registrations ( http://arxiv.org/abs/2401.13605v2 )

ライセンス: Link先を確認
Kimon Kieslich, Marco Lünich, (参考訳) AIは、公共のセキュリティを含む公共部門でますます使われている。 この文脈では、AIによる遠隔生体認証(RBI)システムの使用は、非常に議論の的になっている技術である。 RBIシステムは公共空間における犯罪行為を特定するために使用されるが、偏見を継承し、基本的人権を侵害しているとして批判されている。 したがって、そのようなシステムが公益に開発されることを保証することが重要であり、公益に展開される技術は精査する必要がある。 ビジネスリーダー、政策立案者、科学者の間では、AIは倫理的で信頼できる方法で開発されなければならないという意見が一致しているが、学者らは倫理的ガイドラインは倫理的AIを保証せず、むしろAIのより強力な規制を防ぐものだと主張している。 カウンターウェイトの可能性として、世論は政策立案者に決定的な影響を及ぼし、もしもAIシステムが使われるべき境界と条件を確立することができる。 しかし、AIシステムの規制要求につながる条件についてはほとんど分かっていない。 本研究では,AI技術規制の要求につながる可能性のある潜在的な要因として,AIにおける信頼の役割と,法執行機関に対する信頼に焦点を当てる。 また, RBIに関する識別認知の媒介効果についても検討した。 ドイツ国民を対象にした調査において, RBIの時間的側面(リアルタイム対ポストホック分析)と使用目的(犯罪者の迫害対公共イベントの保護)の異なる4つのユースケースに対する効果を検証した。 ドイツの市民は、RBI規制の要求の観点から異なる申請形態を区別しないことがわかった。 さらに、差別に対する認識がより強い規制の要求につながる一方で、AIへの信頼と法執行機関への信頼は、RBIシステムに対する規制の要求に関して反対の効果をもたらすことを示す。

AI is increasingly being used in the public sector, including public security. In this context, the use of AI-powered remote biometric identification (RBI) systems is a much-discussed technology. RBI systems are used to identify criminal activity in public spaces, but are criticised for inheriting biases and violating fundamental human rights. It is therefore important to ensure that such systems are developed in the public interest, which means that any technology that is deployed for public use needs to be scrutinised. While there is a consensus among business leaders, policymakers and scientists that AI must be developed in an ethical and trustworthy manner, scholars have argued that ethical guidelines do not guarantee ethical AI, but rather prevent stronger regulation of AI. As a possible counterweight, public opinion can have a decisive influence on policymakers to establish boundaries and conditions under which AI systems should be used -- if at all. However, we know little about the conditions that lead to regulatory demand for AI systems. In this study, we focus on the role of trust in AI as well as trust in law enforcement as potential factors that may lead to demands for regulation of AI technology. In addition, we explore the mediating effects of discrimination perceptions regarding RBI. We test the effects on four different use cases of RBI varying the temporal aspect (real-time vs. post hoc analysis) and purpose of use (persecution of criminals vs. safeguarding public events) in a survey among German citizens. We found that German citizens do not differentiate between the different modes of application in terms of their demand for RBI regulation. Furthermore, we show that perceptions of discrimination lead to a demand for stronger regulation, while trust in AI and trust in law enforcement lead to opposite effects in terms of demand for a ban on RBI systems.
翻訳日:2024-05-02 20:01:24 公開日:2024-05-01
# 騒音のパワー:RAGシステムのための検索の再定義

The Power of Noise: Redefining Retrieval for RAG Systems ( http://arxiv.org/abs/2401.14887v4 )

ライセンス: Link先を確認
Florin Cuconasu, Giovanni Trappolini, Federico Siciliano, Simone Filice, Cesare Campagnano, Yoelle Maarek, Nicola Tonellotto, Fabrizio Silvestri, (参考訳) 近年,Retrieval-Augmented Generation (RAG) は,情報検索システム(IR)によって検索される関連パスや文書を用いて,原文のプロンプトを拡張することによって,大規模言語モデルの事前学習知識を超えて拡張する方法として登場した。 RAGは、ジェネレーティブAIソリューション、特にエンタープライズ環境では、知識が常に更新され、LLMでは記憶できない領域において、ますます重要になっている。 本論では,RAGシステムの検索成分は,密度や疎度など,研究コミュニティの注目に値するものであり,RAGシステムの検索戦略を総合的かつ体系的に調査した初めての事例である。 特に、RAGソリューションで取得すべきパスIRシステムの種類に注目します。 分析では、素早い文脈に含まれる通路の関連性、その位置、およびそれらの数など、複数の要因について考察する。 この研究の直感的な発見の1つは、検索者がクエリに直接関連しない(例えば、回答を含まない)最高のスコア付け文書がLLMの有効性に悪影響を及ぼすことである。 さらに驚くべきことに、プロンプトにランダムなドキュメントを追加することで、LLMの精度が最大35%向上することがわかった。 これらの結果は,LLMと検索を統合する上での適切な戦略を検討する必要性を浮き彫りにしており,今後の研究の基盤となるものとなっている。

Retrieval-Augmented Generation (RAG) has recently emerged as a method to extend beyond the pre-trained knowledge of Large Language Models by augmenting the original prompt with relevant passages or documents retrieved by an Information Retrieval (IR) system. RAG has become increasingly important for Generative AI solutions, especially in enterprise settings or in any domain in which knowledge is constantly refreshed and cannot be memorized in the LLM. We argue here that the retrieval component of RAG systems, be it dense or sparse, deserves increased attention from the research community, and accordingly, we conduct the first comprehensive and systematic examination of the retrieval strategy of RAG systems. We focus, in particular, on the type of passages IR systems within a RAG solution should retrieve. Our analysis considers multiple factors, such as the relevance of the passages included in the prompt context, their position, and their number. One counter-intuitive finding of this work is that the retriever's highest-scoring documents that are not directly relevant to the query (e.g., do not contain the answer) negatively impact the effectiveness of the LLM. Even more surprising, we discovered that adding random documents in the prompt improves the LLM accuracy by up to 35%. These results highlight the need to investigate the appropriate strategies when integrating retrieval with LLMs, thereby laying the groundwork for future research in this area.
翻訳日:2024-05-02 20:01:24 公開日:2024-05-01
# 脊髄神経根自動剥離術

Automatic Segmentation of the Spinal Cord Nerve Rootlets ( http://arxiv.org/abs/2402.00724v2 )

ライセンス: Link先を確認
Jan Valosek, Theo Mathieu, Raphaelle Schlienger, Olivia S. Kowalczyk, Julien Cohen-Adad, (参考訳) 脊髄神経根の精密同定は、脊髄の機能的活動の研究において、脊髄レベルを規定する。 本研究の目的は,T2強調MRIによる脊髄神経根のセマンティックセグメンテーションの自動化である。 2つのオープンアクセスMRIデータセットから得られた画像は、C2-C8背側神経根をセグメント化するためのアクティブな学習アプローチを使用して、3Dのマルチクラス畳み込みニューラルネットワークを訓練するために使用された。 各出力クラスは、脊髄レベルに対応する。 この方法は、トレーニング中に見つからないデータセットの3T T2強調画像を用いて、サイト間、セッション間、解像度間の変動を評価した。 テストDiceスコアは0.67+-0.16(テスト画像とルートレットレベルの標準偏差)であり、優れた性能を示している。 この方法はまた、低ベンダー間およびサイト間変動(変動係数<=1.41 %)、低セッション間変動(変動係数<=1.30 %)がMRIベンダー、サイト、セッション間で安定した予測を示すことを示した。 提案手法はオープンソースであり、Spinal Cord Toolbox (SCT) v6.2以上で容易に利用可能である。

Precise identification of spinal nerve rootlets is relevant to delineate spinal levels for the study of functional activity in the spinal cord. The goal of this study was to develop an automatic method for the semantic segmentation of spinal nerve rootlets from T2-weighted magnetic resonance imaging (MRI) scans. Images from two open-access MRI datasets were used to train a 3D multi-class convolutional neural network using an active learning approach to segment C2-C8 dorsal nerve rootlets. Each output class corresponds to a spinal level. The method was tested on 3T T2-weighted images from datasets unseen during training to assess inter-site, inter-session, and inter-resolution variability. The test Dice score was 0.67 +- 0.16 (mean +- standard deviation across testing images and rootlets levels), suggesting a good performance. The method also demonstrated low inter-vendor and inter-site variability (coefficient of variation <= 1.41 %), as well as low inter-session variability (coefficient of variation <= 1.30 %) indicating stable predictions across different MRI vendors, sites, and sessions. The proposed methodology is open-source and readily available in the Spinal Cord Toolbox (SCT) v6.2 and higher.
翻訳日:2024-05-02 20:01:24 公開日:2024-05-01
# 大規模言語モデルに基づくコードレビュー自動化のためのファインチューニングとプロンプトエンジニアリング

Fine-Tuning and Prompt Engineering for Large Language Models-based Code Review Automation ( http://arxiv.org/abs/2402.00905v2 )

ライセンス: Link先を確認
Chanathip Pornprasit, Chakkrit Tantithamthavorn, (参考訳) コンテキスト: 大規模言語モデル(LLM)の急速な進化は、コードレビュープロセスの自動化に彼らの能力を活用することに、大きな関心を喚起しました。 以前の研究は、コードレビュー自動化のためのLLMの開発に注力することが多いが、高価なリソースを必要とするため、予算やリソースが限られている組織では不可能である。 したがって、コードレビュー自動化にLLMを活用するための2つの一般的なアプローチは、微調整と迅速なエンジニアリングである。 目的: LLMが微調整とプロンプトによって活用される場合の2つのコンテキストに基づいて,LLMベースのコードレビュー自動化の性能を検討することを目的とする。 微調整には、特定のコードレビューデータセットでモデルをトレーニングすること、プロンプトには、特定のコードレビューデータセットを必要とせずに、モデル生成プロセスをガイドするための明確な命令を提供することが含まれる。 方法: LLMベースのコードレビュー自動化において,モデルファインチューニングと推論技術(ゼロショット学習,少数ショット学習,ペルソナ)を活用する。 総じて、2つのLCMベースのコードレビュー自動化(GPT-3.5とMagicoder)の12のバリエーションを調査し、それらをGuo et alのアプローチと既存のコードレビュー自動化アプローチ3つと比較する。 結果: ゼロショット学習による GPT 3.5 の微調整により GPT-3.5 は 73.17% -74.23% の EM を達成することができる。 さらに、GPT-3.5が微調整されていない場合、少数ショット学習のGPT-3.5は0ショット学習のGPT-3.5よりも46.38%から659.09%高いEMが得られる。 結論: 結果から,(1) コードレビュー自動化のためのLLMは,最高のパフォーマンスを達成するために微調整する必要があること,(2) モデル微調整に十分なデータがない場合(例: コールドスタート問題)は,コードレビュー自動化のためのLLMにはペルソナを使わずに,ペルソナを使わなければならないこと,などが示唆された。

Context: The rapid evolution of Large Language Models (LLMs) has sparked significant interest in leveraging their capabilities for automating code review processes. Prior studies often focus on developing LLMs for code review automation, yet require expensive resources, which is infeasible for organizations with limited budgets and resources. Thus, fine-tuning and prompt engineering are the two common approaches to leveraging LLMs for code review automation. Objective: We aim to investigate the performance of LLMs-based code review automation based on two contexts, i.e., when LLMs are leveraged by fine-tuning and prompting. Fine-tuning involves training the model on a specific code review dataset, while prompting involves providing explicit instructions to guide the model's generation process without requiring a specific code review dataset. Method: We leverage model fine-tuning and inference techniques (i.e., zero-shot learning, few-shot learning and persona) on LLMs-based code review automation. In total, we investigate 12 variations of two LLMs-based code review automation (i.e., GPT- 3.5 and Magicoder), and compare them with the Guo et al.'s approach and three existing code review automation approaches. Results: The fine-tuning of GPT 3.5 with zero-shot learning helps GPT-3.5 to achieve 73.17% -74.23% higher EM than the Guo et al.'s approach. In addition, when GPT-3.5 is not fine-tuned, GPT-3.5 with few-shot learning achieves 46.38% - 659.09% higher EM than GPT-3.5 with zero-shot learning. Conclusions: Based on our results, we recommend that (1) LLMs for code review automation should be fine-tuned to achieve the highest performance; and (2) when data is not sufficient for model fine-tuning (e.g., a cold-start problem), few-shot learning without a persona should be used for LLMs for code review automation.
翻訳日:2024-05-02 20:01:24 公開日:2024-05-01
# 物理ベース逆レンダリングにおける非距離環境エミッタとしてのNeRF

NeRF as a Non-Distant Environment Emitter in Physics-based Inverse Rendering ( http://arxiv.org/abs/2402.04829v2 )

ライセンス: Link先を確認
Jingwang Ling, Ruihan Yu, Feng Xu, Chun Du, Shuang Zhao, (参考訳) 物理ベースの逆レンダリングは、キャプチャーされた2D画像に基づいて形状、材料、照明のジョイント最適化を可能にする。 正確な復元を確実にするためには、捕獲された環境によく似た光モデルを用いることが不可欠である。 広範に採用されている遠隔環境照明モデルは,多くのケースにおいて適切であるが,空間的に異なる照明を捕捉できないことが,現実の逆レンダリングシナリオにおいて不正確な再構成につながることを実証する。 この制限に対処するため、NeRFを非依存環境エミッタとして逆レンダリングパイプラインに組み込む。 さらに、レンダリングのばらつきを低減するため、NeRFのエミッタ重要サンプリング手法を導入する。 実データと合成データの比較により,我々のNeRFエミッタはシーンライティングをより正確に表現し,逆レンダリングの精度を向上することを示した。

Physics-based inverse rendering enables joint optimization of shape, material, and lighting based on captured 2D images. To ensure accurate reconstruction, using a light model that closely resembles the captured environment is essential. Although the widely adopted distant environmental lighting model is adequate in many cases, we demonstrate that its inability to capture spatially varying illumination can lead to inaccurate reconstructions in many real-world inverse rendering scenarios. To address this limitation, we incorporate NeRF as a non-distant environment emitter into the inverse rendering pipeline. Additionally, we introduce an emitter importance sampling technique for NeRF to reduce the rendering variance. Through comparisons on both real and synthetic datasets, our results demonstrate that our NeRF-based emitter offers a more precise representation of scene lighting, thereby improving the accuracy of inverse rendering.
翻訳日:2024-05-02 20:01:24 公開日:2024-05-01
# エキスパート適応型医用画像セグメンテーション

Expert-Adaptive Medical Image Segmentation ( http://arxiv.org/abs/2402.07330v2 )

ライセンス: Link先を確認
Binyan Hu, A. K. Qin, (参考訳) 医療画像セグメンテーション(MIS)は、医療画像解析において重要な役割を担い、そのプロセスの自動化に多大な努力が注がれている。 現在、メインストリームMISアプローチはディープニューラルネットワーク(DNN)に基づいている。 医学領域では、異なる専門家が生成するアノテーションは、医学画像の複雑さと専門知識のバリエーションと後処理のミッションによって本質的に区別することができる。 そのため、一部の専門家によって注釈付けされたデータに基づいてトレーニングされたDNNモデルは、新しい専門家にはほとんど適応しないかもしれない。 本研究では、マルチエキスパートアノテーション、マルチタスクDNNモデルトレーニング、軽量モデル微調整を特徴とする、カスタマイズされたエキスパート適応手法を評価し、トレーニング画像の量とモビリティが制限されている状況において、新しいエキスパートに対するモデルの適応性を検討する。 限られたトレーニングデータを用いた脳MRIのセグメンテーションタスクで行った実験は、その効果と重要なパラメータの影響を実証する。

Medical image segmentation (MIS) plays an instrumental role in medical image analysis, where considerable effort has been devoted to automating the process. Currently, mainstream MIS approaches are based on deep neural networks (DNNs), which are typically trained on a dataset with annotations produced by certain medical experts. In the medical domain, the annotations generated by different experts can be inherently distinct due to complexity of medical images and variations in expertise and post-segmentation missions. Consequently, the DNN model trained on the data annotated by some experts may hardly adapt to a new expert. In this work, we evaluate a customised expert-adaptive method, characterised by multi-expert annotation, multi-task DNN-based model training, and lightweight model fine-tuning, to investigate model's adaptivity to a new expert in the situation where the amount and mobility of training images are limited. Experiments conducted on brain MRI segmentation tasks with limited training data demonstrate its effectiveness and the impact of its key parameters.
翻訳日:2024-05-02 18:05:17 公開日:2024-05-01
# ハイブリッド量子ニューラルネットワークのトレーニング性能に及ぼすノイズの影響の検討

Investigating the Effect of Noise on the Training Performance of Hybrid Quantum Neural Networks ( http://arxiv.org/abs/2402.08523v2 )

ライセンス: Link先を確認
Muhammad Kashif, Emman Sychiuco, Muhammad Shafique, (参考訳) 本稿では,HyQNNの性能に及ぼす位相フリップ,ビットフリップ,位相減衰,振幅減衰,非分極チャネルなどの異なる量子ノイズゲートの影響を包括的に解析する。 以上の結果から,HyQNNのトレーニングと,ノイズの確率の異なる検証精度に顕著で有意な影響が認められた。 例えば、位相フリップゲートは位相誤差を導入し、HyQNNは高い確率(p = 1.0)で弾力性を示し、一貫した雑音パターンに効果的に適応するのに対し、中間確率では性能が低下するのを観察する。 パウリXゲートで表されるビットフリップエラーは、そのフェーズフリップエラーゲートと同じような方法でHyQNNに影響を与える。 HyQNNは、そのようなエラーを最大確率(p = 1.0)で適用することができる。 位相とビットフリップのエラーゲートとは異なり、位相減衰と振幅減衰ゲートは量子情報を妨害し、HyQNNは低い確率でレジリエンスを示すが高い確率で挑戦する。 振幅減衰誤差ゲートは、特に高い確率で効率と精度の問題を生じさせるが、低い確率 (p = 0.1) では、最も効果が低く、HyQNNはそれほど効果的ではないが、それでも学習する傾向にある。 脱分極チャネルは、HyQNNのパフォーマンスに最も有害であり、訓練の改善は限定的またはなしである。 このノイズゲートの確率にかかわらず、トレーニング電位は観測されなかった。 これらの知見は、HyQNNの設計と訓練における高度な量子エラー軽減とレジリエンス戦略、特にノイズを非分極化する環境における重要な必要性を浮き彫りにした。 本稿では,量子ノイズゲートの効果を理解することが,実用化における量子コンピューティングの潜在能力を最大限に活用するために重要であることを定量的に検討する。

In this paper, we conduct a comprehensively analyze the influence of different quantum noise gates, including Phase Flip, Bit Flip, Phase Damping, Amplitude Damping, and the Depolarizing Channel, on the performance of HyQNNs. Our results reveal distinct and significant effects on HyQNNs training and validation accuracies across different probabilities of noise. For instance, the Phase Flip gate introduces phase errors, and we observe that HyQNNs exhibit resilience at higher probability (p = 1.0), adapting effectively to consistent noise patterns, whereas at intermediate probabilities, the performance declines. Bit Flip errors, represented by the PauliX gate, impact HyQNNs in a similar way to that Phase Flip error gate. The HyQNNs, can adapt such kind of errors at maximum probability (p = 1.0). Unlike Phase and Bit Flip error gates, Phase Damping and Amplitude Damping gates disrupt quantum information, with HyQNNs demonstrating resilience at lower probabilities but facing challenges at higher probabilities. Amplitude Damping error gate, in particular, poses efficiency and accuracy issues at higher probabilities however with lowest probability (p = 0.1),it has the least effect and the HyQNNs, however not very effectively, but still tends to learn. The Depolarizing Channel proves most detrimental to HyQNNs performance, with limited or no training improvements. There was no training potential observed regardless of the probability of this noise gate. These findings underscore the critical need for advanced quantum error mitigation and resilience strategies in the design and training of HyQNNs, especially in environments prone to depolarizing noise. This paper quantitatively investigate that understanding the impact of quantum noise gates is essential for harnessing the full potential of quantum computing in practical applications.
翻訳日:2024-05-02 18:05:17 公開日:2024-05-01
# ResQuNNs:量子畳み込みニューラルネットワークにおけるディープラーニングの実現に向けて

ResQuNNs:Towards Enabling Deep Learning in Quantum Convolution Neural Networks ( http://arxiv.org/abs/2402.09146v2 )

ライセンス: Link先を確認
Muhammad Kashif, Muhammad Shafique, (参考訳) 本稿では、トレーニング可能な準進化層を導入し、それに関連する重要な課題に対処することにより、クオン進化ニューラルネットワーク(QuNN)の性能を向上させるための新しい枠組みを提案する。 従来の準進化的レイヤは、機能抽出には有益だが、ほとんど静的であり、適応性は限られている。 最先端とは違って、これらのレイヤ内でのトレーニングを可能にすることで、この制限を克服し、QuNNの柔軟性と可能性を大幅に向上させています。 しかし、複数のトレーニング可能な準畳み込み層の導入は、主にこれらの層にまたがる勾配にアクセスするのが困難であるため、勾配に基づく最適化の複雑さを引き起こす。 これを解決するために,Residual Quanvolutional Neural Networks (ResQuNNs) という新しいアーキテクチャを提案する。 畳み込み層間に残留ブロックを挿入することにより、ネットワーク全体のグラデーションアクセスが向上し、トレーニング性能が向上する。 さらに,これらの残留ブロックの戦略的配置に関する実証的証拠をQuNN内に提示する。 大規模な実験により,残差ブロックの効率的な構成が特定され,ネットワーク内のすべての層をまたがる勾配が実現され,結果として効率のよいトレーニングがもたらされる。 本研究は, 残差ブロックの正確な位置がQuNNの性能向上の最大化に重要な役割を担っていることを示唆する。 我々の結果は、量子深層学習の進化における大きな一歩であり、理論開発と実用的な量子コンピューティングアプリケーションの両方に新しい道のりを提供する。

In this paper, we present a novel framework for enhancing the performance of Quanvolutional Neural Networks (QuNNs) by introducing trainable quanvolutional layers and addressing the critical challenges associated with them. Traditional quanvolutional layers, although beneficial for feature extraction, have largely been static, offering limited adaptability. Unlike state-of-the-art, our research overcomes this limitation by enabling training within these layers, significantly increasing the flexibility and potential of QuNNs. However, the introduction of multiple trainable quanvolutional layers induces complexities in gradient-based optimization, primarily due to the difficulty in accessing gradients across these layers. To resolve this, we propose a novel architecture, Residual Quanvolutional Neural Networks (ResQuNNs), leveraging the concept of residual learning, which facilitates the flow of gradients by adding skip connections between layers. By inserting residual blocks between quanvolutional layers, we ensure enhanced gradient access throughout the network, leading to improved training performance. Moreover, we provide empirical evidence on the strategic placement of these residual blocks within QuNNs. Through extensive experimentation, we identify an efficient configuration of residual blocks, which enables gradients across all the layers in the network that eventually results in efficient training. Our findings suggest that the precise location of residual blocks plays a crucial role in maximizing the performance gains in QuNNs. Our results mark a substantial step forward in the evolution of quantum deep learning, offering new avenues for both theoretical development and practical quantum computing applications.
翻訳日:2024-05-02 18:05:17 公開日:2024-05-01
# 関数呼び出しによるゼロショット対話状態追跡器としての大規模言語モデル

Large Language Models as Zero-shot Dialogue State Tracker through Function Calling ( http://arxiv.org/abs/2402.10466v2 )

ライセンス: Link先を確認
Zekun Li, Zhiyu Zoey Chen, Mike Ross, Patrick Huber, Seungwhan Moon, Zhaojiang Lin, Xin Luna Dong, Adithya Sagar, Xifeng Yan, Paul A. Crook, (参考訳) 大きな言語モデル(LLM)は、一般的な文脈における高度な理解と生成能力のため、会話システムにおいてますます普及している。 しかし、タスク指向対話(TOD)の有効性は、応答生成だけでなく、特定のタスクやドメイン内での効果的な対話状態追跡(DST)も必要としている。 本研究では,関数呼び出しによるDSTをLLMで解くための新しいアプローチFnCTODを提案する。 この方法はゼロショットDSTを改善し、広範囲のデータ収集やモデルチューニングなしに多様なドメインに適応できる。 提案手法は,ChatGPTが達成した従来のSOTA(State-of-the-art (SOTA))を7Bまたは13Bパラメータモデルで上回り,平均目標精度(JGA)を5.6%上回るChatGPTの性能向上を実現している。 GPT-3.5とGPT-4はそれぞれ4.8%、GPT-4は14%向上した。 また、多様なタスク指向対話の小さなコレクションを微調整することで、https://github.com/facebookresearch/FnCTODでモデストを装備できることも示しています。

Large language models (LLMs) are increasingly prevalent in conversational systems due to their advanced understanding and generative capabilities in general contexts. However, their effectiveness in task-oriented dialogues (TOD), which requires not only response generation but also effective dialogue state tracking (DST) within specific tasks and domains, remains less satisfying. In this work, we propose a novel approach FnCTOD for solving DST with LLMs through function calling. This method improves zero-shot DST, allowing adaptation to diverse domains without extensive data collection or model tuning. Our experimental results demonstrate that our approach achieves exceptional performance with both modestly sized open-source and also proprietary LLMs: with in-context prompting it enables various 7B or 13B parameter models to surpass the previous state-of-the-art (SOTA) achieved by ChatGPT, and improves ChatGPT's performance beating the SOTA by 5.6% average joint goal accuracy (JGA). Individual model results for GPT-3.5 and GPT-4 are boosted by 4.8% and 14%, respectively. We also show that by fine-tuning on a small collection of diverse task-oriented dialogues, we can equip modest at https://github.com/facebookresearch/FnCTOD
翻訳日:2024-05-02 18:05:17 公開日:2024-05-01
# 言語モデルダイアログにおけるインストラクションの測定と制御(In)安定性

Measuring and Controlling Instruction (In)Stability in Language Model Dialogs ( http://arxiv.org/abs/2402.10962v3 )

ライセンス: Link先を確認
Kenneth Li, Tianle Liu, Naomi Bashkansky, David Bau, Fernanda Viégas, Hanspeter Pfister, Martin Wattenberg, (参考訳) システムプロンプティングは、言語モデルチャットボットをカスタマイズするための標準ツールであり、特定の命令に従うことができる。 システムプロンプトの使用における暗黙の仮定は、それらが安定しているというものであるため、チャットボットは会話の間、規定された指示に従ってテキストを生成し続ける。 この仮定を定量的に検証し、2つの指示されたチャットボット間のセルフチャットによる命令安定性を評価する。 LLaMA2-chat-70B や GPT-3.5 のような一般的なモデルをテストすると、8ラウンドの会話で重要な命令ドリフトが明らかになる。 この現象を実証的・理論的に分析すると、長い交換で注意が減衰するため、トランスフォーマーの注意機構が重要な役割を果たしていることが示唆される。 注目の減衰と命令のドリフトに対処するため,2つの強いベースラインに対して良好に比較可能なsplit-softmaxという軽量な手法を提案する。

System-prompting is a standard tool for customizing language-model chatbots, enabling them to follow a specific instruction. An implicit assumption in the use of system prompts is that they will be stable, so the chatbot will continue to generate text according to the stipulated instructions for the duration of a conversation. We propose a quantitative benchmark to test this assumption, evaluating instruction stability via self-chats between two instructed chatbots. Testing popular models like LLaMA2-chat-70B and GPT-3.5, we reveal a significant instruction drift within eight rounds of conversations. An empirical and theoretical analysis of this phenomenon suggests the transformer attention mechanism plays a role, due to attention decay over long exchanges. To combat attention decay and instruction drift, we propose a lightweight method called split-softmax, which compares favorably against two strong baselines.
翻訳日:2024-05-02 18:05:17 公開日:2024-05-01
# FusionVision: YOLOと高速セグメンテーションを用いたRGB-Dカメラからの3Dオブジェクト再構成とセグメンテーションの包括的アプローチ

FusionVision: A comprehensive approach of 3D object reconstruction and segmentation from RGB-D cameras using YOLO and fast segment anything ( http://arxiv.org/abs/2403.00175v2 )

ライセンス: Link先を確認
Safouane El Ghazouali, Youssef Mhirit, Ali Oukhrid, Umberto Michelucci, Hichem Nouira, (参考訳) コンピュータビジョンの領域において、RGB-Dカメラ入力の処理に高度な技術を統合することは、多様な環境条件や様々な物体の外観から生じる固有の複雑さを考えると、大きな課題となる。 そこで本研究では,RGB-D画像におけるオブジェクトのロバストな3次元セグメンテーションに適応した総括パイプラインFusionVisionを提案する。 従来のコンピュータビジョンシステムは、RGBカメラで主に提案されているように、精密な物体境界を同時に捉え、深度マップ上で高精度な物体検出を実現する際に制限に直面している。 この課題に対処するため、FusionVisionでは、最先端のオブジェクト検出技術を高度なインスタンスセグメンテーション手法と組み合わせた統合的なアプローチを採用している。 これらのコンポーネントの統合により、RGB-Dデータの総合的(総合的な)解析が可能となり、包括的で正確なオブジェクト情報の抽出が容易になる。 提案したFusionVisionパイプラインでは、RGBイメージ領域内のオブジェクトの識別にYOLOを使用している。 次に、革新的セマンティックセグメンテーションモデルであるFastSAMを適用してオブジェクト境界を導出し、洗練されたセグメンテーションマスクを生成する。 これらのコンポーネント間の相乗効果と3Dシーン理解への統合により、オブジェクト検出とセグメンテーションの結合が保証され、3Dオブジェクトセグメンテーションの全体的な精度が向上する。 コードと事前訓練されたモデルはhttps://github.com/safouaneelg/FusionVision/.comで公開されている。

In the realm of computer vision, the integration of advanced techniques into the processing of RGB-D camera inputs poses a significant challenge, given the inherent complexities arising from diverse environmental conditions and varying object appearances. Therefore, this paper introduces FusionVision, an exhaustive pipeline adapted for the robust 3D segmentation of objects in RGB-D imagery. Traditional computer vision systems face limitations in simultaneously capturing precise object boundaries and achieving high-precision object detection on depth map as they are mainly proposed for RGB cameras. To address this challenge, FusionVision adopts an integrated approach by merging state-of-the-art object detection techniques, with advanced instance segmentation methods. The integration of these components enables a holistic (unified analysis of information obtained from both color \textit{RGB} and depth \textit{D} channels) interpretation of RGB-D data, facilitating the extraction of comprehensive and accurate object information. The proposed FusionVision pipeline employs YOLO for identifying objects within the RGB image domain. Subsequently, FastSAM, an innovative semantic segmentation model, is applied to delineate object boundaries, yielding refined segmentation masks. The synergy between these components and their integration into 3D scene understanding ensures a cohesive fusion of object detection and segmentation, enhancing overall precision in 3D object segmentation. The code and pre-trained models are publicly available at https://github.com/safouaneelg/FusionVision/.
翻訳日:2024-05-02 18:05:17 公開日:2024-05-01
# ChartReformer: 自然言語駆動のチャートイメージ編集

ChartReformer: Natural Language-Driven Chart Image Editing ( http://arxiv.org/abs/2403.00209v2 )

ライセンス: Link先を確認
Pengyu Yan, Mahesh Bhosale, Jay Lal, Bikhyat Adhikari, David Doermann, (参考訳) チャートの視覚化は、データの解釈と通信には不可欠であるが、ほとんどのチャートは画像形式でのみアクセス可能であり、対応するデータテーブルと補足情報がないため、異なるアプリケーションシナリオでその外観を変更することは困難である。 そこで本研究では,入力画像からチャートを直接編集する自然言語駆動のチャート画像編集ソリューションであるChartReformerを提案する。 この手法の鍵となるのは、モデルがチャートを理解でき、プロンプトを判断して対応するデータテーブルと新しいチャートの視覚属性を生成し、正確な編集を可能にすることである。 さらに、ChartReformerを一般化するために、様々な種類のチャート編集、スタイル、レイアウト、フォーマット、データ中心の編集を定義し、標準化する。 実験の結果,自然言語によるチャート画像編集に有望な結果が得られた。

Chart visualizations are essential for data interpretation and communication; however, most charts are only accessible in image format and lack the corresponding data tables and supplementary information, making it difficult to alter their appearance for different application scenarios. To eliminate the need for original underlying data and information to perform chart editing, we propose ChartReformer, a natural language-driven chart image editing solution that directly edits the charts from the input images with the given instruction prompts. The key in this method is that we allow the model to comprehend the chart and reason over the prompt to generate the corresponding underlying data table and visual attributes for new charts, enabling precise edits. Additionally, to generalize ChartReformer, we define and standardize various types of chart editing, covering style, layout, format, and data-centric edits. The experiments show promising results for the natural language-driven chart image editing.
翻訳日:2024-05-02 18:05:17 公開日:2024-05-01
# SOFIM:正規化漁業情報行列を用いた確率最適化

SOFIM: Stochastic Optimization Using Regularized Fisher Information Matrix ( http://arxiv.org/abs/2403.02833v2 )

ライセンス: Link先を確認
Mrinmay Sen, A. K. Qin, Gayathri C, Raghu Kishore N, Yen-Wei Chen, Balasubramanian Raman, (参考訳) 本稿では,正規化フィッシャー情報行列(FIM)をベースとした新しい確率的最適化手法であるSOFIMを提案する。 自然勾配降下の変種と見なすことができ、正規化FIMを用いて、シャーマン・モリソン行列逆転による勾配更新方向を直接見つけることにより、完全なFIMの保存と計算の課題に対処することができる。 さらに、一般的なAdam法と同様に、SOFIMは勾配の最初の瞬間を使い、不均一なデータによるミニバッチ間の非定常目的の問題に対処する。 正規化FIMとシャーマン・モリソン行列の逆変換の利用により、運動量を持つ確率勾配勾配(SGD)と同じ空間と時間的複雑さで収束率が向上する。 いくつかのベンチマーク画像分類データセットを用いた深層学習モデルの訓練実験により,提案したSOFIMは,所定の目標であるトレーニングとテスト損失とテスト精度を達成するための収束速度の観点から,運動量でSGDを上回り,最先端のNewton最適化手法を複数組み合わせた結果が得られた。

This paper introduces a new stochastic optimization method based on the regularized Fisher information matrix (FIM), named SOFIM, which can efficiently utilize the FIM to approximate the Hessian matrix for finding Newton's gradient update in large-scale stochastic optimization of machine learning models. It can be viewed as a variant of natural gradient descent, where the challenge of storing and calculating the full FIM is addressed through making use of the regularized FIM and directly finding the gradient update direction via Sherman-Morrison matrix inversion. Additionally, like the popular Adam method, SOFIM uses the first moment of the gradient to address the issue of non-stationary objectives across mini-batches due to heterogeneous data. The utilization of the regularized FIM and Sherman-Morrison matrix inversion leads to the improved convergence rate with the same space and time complexities as stochastic gradient descent (SGD) with momentum. The extensive experiments on training deep learning models using several benchmark image classification datasets demonstrate that the proposed SOFIM outperforms SGD with momentum and several state-of-the-art Newton optimization methods in term of the convergence speed for achieving the pre-specified objectives of training and test losses as well as test accuracy.
翻訳日:2024-05-02 18:05:17 公開日:2024-05-01
# 医療用大規模言語モデルの構築に向けて

Towards Safe Large Language Models for Medicine ( http://arxiv.org/abs/2403.03744v2 )

ライセンス: Link先を確認
Tessa Han, Aounon Kumar, Chirag Agarwal, Himabindu Lakkaraju, (参考訳) 大規模言語モデル(LLM)は、常に改善され、現実世界の環境で適用されるため、安全性を理解することが重要である。 一般知識 LLM の安全性を評価するための最初の段階が取られたが、医療 LLM の安全性は、個人の健康と安全、公衆衛生と安全、患者の権利、人権に対するリスクが高いにもかかわらず十分に評価されていない。 このギャップに対処するため、我々は、医療用LDMの安全性を評価し改善するための、その種の最初の研究を行う。 私たちはそれを見つける。 1)現在の医療用LSMは、有害な要求に容易に従うため、一般または医療安全の基準を満たしていない。 2) 安全実証における微調整医療LLMは安全性を著しく向上させ, 有害な要求に応じる傾向を低下させる。 さらに, LLM の医療安全の定義と, LLM の医療安全を評価するためのベンチマークデータセットの開発について述べる。 機械学習の安全性と医療機械学習の研究が交わる中で、この研究は医療用LLMの安全性の現状に光を当て、この分野での今後の研究を動機付け、医学におけるLLMの害のリスクを軽減する。

As large language models (LLMs) develop ever-improving capabilities and are applied in real-world settings, it is important to understand their safety. While initial steps have been taken to evaluate the safety of general-knowledge LLMs, exposing some weaknesses, the safety of medical LLMs has not been sufficiently evaluated despite their high risks to personal health and safety, public health and safety, patient rights, and human rights. To address this gap, we conduct, to our knowledge, the first study of its kind to evaluate and improve the safety of medical LLMs. We find that 1) current medical LLMs do not meet standards of general or medical safety, as they readily comply with harmful requests and that 2) fine-tuning medical LLMs on safety demonstrations significantly improves their safety, reducing their tendency to comply with harmful requests. In addition, we present a definition of medical safety for LLMs and develop a benchmark dataset to evaluate and train for medical safety in LLMs. Poised at the intersection of research on machine learning safety and medical machine learning, this work casts light on the status quo of the safety of medical LLMs and motivates future work in this area, mitigating the risks of harm of LLMs in medicine.
翻訳日:2024-05-02 18:05:17 公開日:2024-05-01
# LitSim: 長期対話型トラフィックシミュレーションのための競合認識ポリシー

LitSim: A Conflict-aware Policy for Long-term Interactive Traffic Simulation ( http://arxiv.org/abs/2403.04299v2 )

ライセンス: Link先を確認
Haojie Xin, Xiaodong Zhang, Renzhi Tang, Songyang Yan, Qianrui Zhao, Chunze Yang, Wen Cui, Zijiang Yang, (参考訳) シミュレーションは、オンロードテストと比較して高い効率と低コストの利点により、自律運転システムの性能を評価する上で重要である。 シミュレーションと現実世界のギャップを埋めるには、現実的なエージェントの振る舞いが必要です。 1) ログリプレイは現実的なシナリオを提供するが、動的相互作用の欠如による衝突につながることが多い。(2) 現実のデータセットでパラメータ化され、訓練されたヒューリスティックベースとデータベースのソリューションは、相互作用を奨励するが、長い地平線上での実際のデータから逸脱することが多い。 本稿では,ログの介入を最小限に抑えてリアリズムを最大化する,長期対話型シミュレーション手法LitSimを提案する。 具体的には、当社のアプローチでは、ログリプレイを使用してリアリズムを確実にし、潜在的な衝突を防ぐために必要な場合にのみ介入する。 エージェント間の相互作用を奨励し、紛争を解決し、非現実的な行動のリスクを減らす。 我々は、実世界のデータセットNGSIMでモデルをトレーニングし、検証し、実験結果により、LitSimが現実性と反応性の観点から現在一般的なアプローチより優れていることを示した。

Simulation is pivotal in evaluating the performance of autonomous driving systems due to the advantages of high efficiency and low cost compared to on-road testing. Bridging the gap between simulation and the real world requires realistic agent behaviors. However, the existing works have the following shortcomings in achieving this goal: (1) log replay offers realistic scenarios but often leads to collisions due to the absence of dynamic interactions, and (2) both heuristic-based and data-based solutions, which are parameterized and trained on real-world datasets, encourage interactions but often deviate from real-world data over long horizons. In this work, we propose LitSim, a long-term interactive simulation approach that maximizes realism by minimizing the interventions in the log. Specifically, our approach primarily uses log replay to ensure realism and intervenes only when necessary to prevent potential conflicts. We then encourage interactions among the agents and resolve the conflicts, thereby reducing the risk of unrealistic behaviors. We train and validate our model on the real-world dataset NGSIM, and the experimental results demonstrate that LitSim outperforms the currently popular approaches in terms of realism and reactivity.
翻訳日:2024-05-02 18:05:17 公開日:2024-05-01
# プライバシファネルの効率よい差分解法

An Efficient Difference-of-Convex Solver for Privacy Funnel ( http://arxiv.org/abs/2403.04778v3 )

ライセンス: Link先を確認
Teng-Hui Huang, Hesham El Gamal, (参考訳) 本稿では,その差分凸(DC)構造を利用したプライバシ・ファンネル(PF)手法の効率的な解法を提案する。 提案したDC分離は, 未知の分布設定と未知の分布設定の両方に簡単に適用可能なクローズドフォーム更新方程式を導出する。 既知分布の場合,提案した非グレード解の収束(局所定常点)を証明し,プライバシ・ユーティリティ・トレードオフの特徴付けにおける最先端のアプローチよりも優れていることを実証的に示す。 我々のDCアプローチの洞察は、ラベル付き実験サンプルを代わりに利用できる未知の分布設定に適用できる。 これらの知見を生かして、我々の交互最小化解法は、従来の変分推論に基づく解法とは対照的に、PFのマルコフ関係を満足する。 提案手法をMNISTおよびFashion-MNISTデータセットを用いて実証的に評価した。 この結果から, 圧縮符号のクラスタリングによる予測誤差が, 比較した手法よりも高いことが示唆された。 最も重要なことは、私たちの解法は、ベースラインに反する推論フェーズにおいて、プライベート情報とは独立していることです。

We propose an efficient solver for the privacy funnel (PF) method, leveraging its difference-of-convex (DC) structure. The proposed DC separation results in a closed-form update equation, which allows straightforward application to both known and unknown distribution settings. For known distribution case, we prove the convergence (local stationary points) of the proposed non-greedy solver, and empirically show that it outperforms the state-of-the-art approaches in characterizing the privacy-utility trade-off. The insights of our DC approach apply to unknown distribution settings where labeled empirical samples are available instead. Leveraging the insights, our alternating minimization solver satisfies the fundamental Markov relation of PF in contrast to previous variational inference-based solvers. Empirically, we evaluate the proposed solver with MNIST and Fashion-MNIST datasets. Our results show that under a comparable reconstruction quality, an adversary suffers from higher prediction error from clustering our compressed codes than that with the compared methods. Most importantly, our solver is independent to private information in inference phase contrary to the baselines.
翻訳日:2024-05-02 18:05:17 公開日:2024-05-01
# 電波天文学における高速高精度イメージングのためのR2D2ディープニューラルネットワークシリーズパラダイム

The R2D2 deep neural network series paradigm for fast precision imaging in radio astronomy ( http://arxiv.org/abs/2403.05452v3 )

ライセンス: Link先を確認
Amir Aghabiglou, Chung San Chu, Arwa Dabbech, Yves Wiaux, (参考訳) ラジオインターフェロメトリ(RI)イメージングは、大容量データから高解像度の高ダイナミックレンジ逆問題を解決する。 最適化理論に基づく最近の画像再構成技術は、CLEANの能力をはるかに超えて、画像の精度を著しく向上させることを示した。 これらは、SARAファミリーのような手作りの正規化演算子によって推進される高度な近位アルゴリズムから、AIRIのような学習正規化復号器によって推進されるハイブリッドプラグアンドプレイ(PnP)アルゴリズムまで様々である。 しかし、最適化とPnP構造は非常に反復的であり、将来の機器から期待される極端なデータサイズを扱う能力を妨げる。 このスケーラビリティの課題に対処するために、我々は"Residual-to-Residual DNN series for High-Dynamic Range Imaging"と呼ばれる新しいディープラーニング手法を導入する。 R2D2の再構成は一連の残像として形成され、前回の反復のイメージ推定と関連するデータを入力として取り込むディープニューラルネットワーク(DNN)の出力として反復的に推定される。 これにより、PnPアルゴリズムとCLEANの基盤となるマッチング追従アルゴリズムの学習バージョンとのハイブリッド構造を取る。 本稿では,DNNアーキテクチャによって区別される複数のインカーネーションを特徴とするアプローチを包括的に検討する。 我々は、望遠鏡固有のアプローチをターゲットとした、そのトレーニングプロセスの詳細な説明を提供する。 高精度を実現するR2D2の能力は、Very Large Array (VLA) を用いた様々な画像および観測設定のシミュレーションで実証されている。 その復元速度も示される: ダイナミックレンジでデータ残基を最大100000まで掃除するのに必要なイテレーションは数回しかなく、R2D2は高速な精度の撮像のためにドアを開く。 R2D2コードはGitHubのBASPLibライブラリから入手できる。

Radio-interferometric (RI) imaging entails solving high-resolution high-dynamic range inverse problems from large data volumes. Recent image reconstruction techniques grounded in optimization theory have demonstrated remarkable capability for imaging precision, well beyond CLEAN's capability. These range from advanced proximal algorithms propelled by handcrafted regularization operators, such as the SARA family, to hybrid plug-and-play (PnP) algorithms propelled by learned regularization denoisers, such as AIRI. Optimization and PnP structures are however highly iterative, which hinders their ability to handle the extreme data sizes expected from future instruments. To address this scalability challenge, we introduce a novel deep learning approach, dubbed "Residual-to-Residual DNN series for high-Dynamic range imaging". R2D2's reconstruction is formed as a series of residual images, iteratively estimated as outputs of Deep Neural Networks (DNNs) taking the previous iteration's image estimate and associated data residual as inputs. It thus takes a hybrid structure between a PnP algorithm and a learned version of the matching pursuit algorithm that underpins CLEAN. We present a comprehensive study of our approach, featuring its multiple incarnations distinguished by their DNN architectures. We provide a detailed description of its training process, targeting a telescope-specific approach. R2D2's capability to deliver high precision is demonstrated in simulation, across a variety of image and observation settings using the Very Large Array (VLA). Its reconstruction speed is also demonstrated: with only few iterations required to clean data residuals at dynamic ranges up to 100000, R2D2 opens the door to fast precision imaging. R2D2 codes are available in the BASPLib library on GitHub.
翻訳日:2024-05-02 18:05:17 公開日:2024-05-01
# マージンを爆発させる: 資本主義はAIをミノリティーズド・グループの拡大に駆り立てる

Exploiting the Margin: How Capitalism Fuels AI at the Expense of Minoritized Groups ( http://arxiv.org/abs/2403.06332v2 )

ライセンス: Link先を確認
Nelson Colón Vargas, (参考訳) 本稿では、資本主義、人種的不正、人工知能(AI)の複雑な関係を考察し、AIは時代遅れの搾取の現代的手段であると主張した。 この研究は、人種的・経済的抑圧の歴史的パターンと現在のAIの実践を結びつけることによって、現代技術がどのように社会的な不平等を永続し、深めていくかを示す。 具体的には、ギグエコノミーにおける未払い労働、アルゴリズムによる意思決定における偏見の持続、そしてこれらのグループが技術的進歩から公平に利益を得るのを防ぐためのシステム的障壁の強化を通じて、AIが疎外されたコミュニティの搾取にどのように関与しているかについて検討する。 さらに、これらのコミュニティが直面する社会的、経済的、心理的負担を拡大し、強化する上でAIが果たす役割について論じ、監視、法執行、メンタルヘルスの文脈におけるAIの問題点を浮き彫りにした。 この分析は、AIの開発とデプロイ方法における変革的変化の呼びかけで締めくくっている。 この論文は、AIイノベーションを駆動する価値の再評価を推奨し、社会正義と株式を技術設計と政策のコアに統合するアプローチを推進している。 このシフトは、AIが社会的改善のツールであり、既存の分断を深めるのではなく、エンパワーメントとヒーリングを促進するために重要である。

This paper explores the intricate relationship between capitalism, racial injustice, and artificial intelligence (AI), arguing that AI acts as a contemporary vehicle for age-old forms of exploitation. By linking historical patterns of racial and economic oppression with current AI practices, this study illustrates how modern technology perpetuates and deepens societal inequalities. It specifically examines how AI is implicated in the exploitation of marginalized communities through underpaid labor in the gig economy, the perpetuation of biases in algorithmic decision-making, and the reinforcement of systemic barriers that prevent these groups from benefiting equitably from technological advances. Furthermore, the paper discusses the role of AI in extending and intensifying the social, economic, and psychological burdens faced by these communities, highlighting the problematic use of AI in surveillance, law enforcement, and mental health contexts. The analysis concludes with a call for transformative changes in how AI is developed and deployed. Advocating for a reevaluation of the values driving AI innovation, the paper promotes an approach that integrates social justice and equity into the core of technological design and policy. This shift is crucial for ensuring that AI serves as a tool for societal improvement, fostering empowerment and healing rather than deepening existing divides.
翻訳日:2024-05-02 17:55:26 公開日:2024-05-01
# マルチユーザネットワークにおける絡み合い調整率

Entanglement Coordination Rates in Multi-User Networks ( http://arxiv.org/abs/2403.11893v3 )

ライセンス: Link先を確認
Hosen Nator, Uzi Pereg, (参考訳) 最適調整速度は、マルチユーザ量子ネットワークの3つの一次設定で決定され、複数のパーティ間の共同量子状態をシミュレートするために必要となる最小限のリソースを特徴付ける。 本研究では,(1)周波数制限付きカスケードネットワーク,(2)1つの送信機と2つの受信機からなる放送ネットワーク,(3)2つの送信機と1つの受信機を備えた多重アクセスネットワークについて検討する。 我々は,各設定において,漸近的に達成可能なコミュニケーションと絡み合い率について,必要かつ十分な条件を確立する。 最後に、量子戦略を持つ非局所ゲームにおいて、結果が意味することを示す。

The optimal coordination rates are determined in three primary settings of multi-user quantum networks, thus characterizing the minimal resources required in order to simulate a joint quantum state among multiple parties. We study the following models: (1) a cascade network with rate-limited entanglement, (2) a broadcast network, which consists of a single sender and two receivers, (3) a multiple-access network with two senders and a single receiver. We establish the necessary and sufficient conditions on the asymptotically-achievable communication and entanglement rates in each setting. At last, we show the implications of our results on nonlocal games with quantum strategies.
翻訳日:2024-05-02 17:55:26 公開日:2024-05-01
# リバースカース教育のためのリバーストレーニング

Reverse Training to Nurse the Reversal Curse ( http://arxiv.org/abs/2403.13799v2 )

ライセンス: Link先を確認
Olga Golovneva, Zeyuan Allen-Zhu, Jason Weston, Sainbayar Sukhbaatar, (参考訳) 大型言語モデル (LLM) には驚くべき失敗がある: "A has a feature B" で訓練された場合、それらは "B is a feature of A" に一般化されるのではなく、"Reversal Curse" と呼ばれる。 何十兆ものトークンでトレーニングしても、Zipfの法則によって、この問題は依然として現れます。 この研究は、すべての単語を2回使用し、利用可能なトークンの量を2倍にする、リバーストレーニングと呼ばれる代替のトレーニングスキームを提案する。 LLMは、例えばエンティティのような選択されたサブストリングを保存しながら、トレーニング文字列を反転させることで、前方方向と逆方向の両方で訓練される。 我々は,データマッチング逆トレーニングモデルが標準タスクの標準モデルよりも優れた性能を示し,計算マッチング逆トレーニングモデルは逆タスクにおいてはるかに優れた性能を示し,逆の呪いの解決に役立てることを示した。

Large language models (LLMs) have a surprising failure: when trained on "A has a feature B", they do not generalize to "B is a feature of A", which is termed the Reversal Curse. Even when training with trillions of tokens this issue still appears due to Zipf's law - hence even if we train on the entire internet. This work proposes an alternative training scheme, called reverse training, whereby all words are used twice, doubling the amount of available tokens. The LLM is trained in both forward and reverse directions by reversing the training strings while preserving (i.e., not reversing) chosen substrings, such as entities. We show that data-matched reverse-trained models provide superior performance to standard models on standard tasks, and compute-matched reverse-trained models provide far superior performance on reversal tasks, helping resolve the reversal curse issue.
翻訳日:2024-05-02 17:55:26 公開日:2024-05-01
# マルチコンディション遅延拡散モデルを用いたコントラスト運動学の学習に向けて

Towards Learning Contrast Kinetics with Multi-Condition Latent Diffusion Models ( http://arxiv.org/abs/2403.13890v2 )

ライセンス: Link先を確認
Richard Osuala, Daniel Lang, Preeti Verma, Smriti Joshi, Apostolia Tsirikoglou, Grzegorz Skorupko, Kaisar Kushibar, Lidia Garrucho, Walter H. L. Pinaya, Oliver Diaz, Julia Schnabel, Karim Lekadir, (参考訳) ダイナミックコントラスト造影MRIにおける造影剤は腫瘍を局在させ、そのコントラスト動態を観察することができる。 しかし、コントラスト剤の投与は、有害な健康リスクだけでなく、妊娠中の患者、腎臓機能不全の患者、その他の副作用に制限されている。 病変悪性度, 癌再発リスク, 治療反応の指標としてのコントラスト取り込みは, 静脈内コントラスト剤投与への依存性を減少させる重要な指標となる。 そこで本研究では,DCE-MRI時系列の時間条件画像合成が可能な多条件潜在拡散モデルを提案する。 医用画像の合成を評価するために,合成画像データと実画像データとのバイオマーカーのばらつきに基づいて,Fr'echetラジオミクス距離を画像品質指標として提案し,評価する。 以上の結果から,本手法は多列性脂肪飽和DCE-MRIを現実的に生成し,深層学習に基づくコントラスト運動学シミュレーションの可能性を明らかにすることができる。 アクセス可能なコードベースをhttps://github.com/RichardObi/ccnetで公開し、https://pypi.org/project/frd-scoreでFr\echetラジオミクス距離計算のためのユーザフレンドリーなライブラリを提供します。

Contrast agents in dynamic contrast enhanced magnetic resonance imaging allow to localize tumors and observe their contrast kinetics, which is essential for cancer characterization and respective treatment decision-making. However, contrast agent administration is not only associated with adverse health risks, but also restricted for patients during pregnancy, and for those with kidney malfunction, or other adverse reactions. With contrast uptake as key biomarker for lesion malignancy, cancer recurrence risk, and treatment response, it becomes pivotal to reduce the dependency on intravenous contrast agent administration. To this end, we propose a multi-conditional latent diffusion model capable of acquisition time-conditioned image synthesis of DCE-MRI temporal sequences. To evaluate medical image synthesis, we additionally propose and validate the Fr\'echet radiomics distance as an image quality measure based on biomarker variability between synthetic and real imaging data. Our results demonstrate our method's ability to generate realistic multi-sequence fat-saturated breast DCE-MRI and uncover the emerging potential of deep learning based contrast kinetics simulation. We publicly share our accessible codebase at https://github.com/RichardObi/ccnet and provide a user-friendly library for Fr\'echet radiomics distance calculation at https://pypi.org/project/frd-score.
翻訳日:2024-05-02 17:55:26 公開日:2024-05-01
# beSnake: スケーラブルなスピンキュービットアーキテクチャのためのルーティングアルゴリズム

beSnake: A routing algorithm for scalable spin-qubit architectures ( http://arxiv.org/abs/2403.16090v2 )

ライセンス: Link先を確認
Nikiforos Paraskevopoulos, Carmen G. Almudever, Sebastian Feld, (参考訳) 量子コンピューティングデバイスが量子ビットの数に関してサイズが大きくなるにつれて、2ビットの相互作用はより困難になり、革新的でスケーラブルな量子ビットルーティングソリューションを必要とする。 本研究では,スケーラブルなスピンキュービットアーキテクチャにおける複雑なキュービットルーティング問題に対処するために設計された,新しいアルゴリズムであるbeSnakeを紹介する。 SWAPのみに依存する従来の超伝導アーキテクチャの手法とは異なり、beSnakeはシャトル演算を取り入れて量子回路の実行時間と忠実度を最適化し、ルーティングタスク自体の高速な計算時間を実現する。 単純な幅優先の探索手法を用いて、beSnakeは、最大72\%の量子ビット密度で、様々なトポロジと障害物として働くキュービット位置によって生成される制約を効果的に管理する。 また、ノイズ認識を維持しながら、最適化レベルを調整したり、並列化されたルーティングタスクに動的に取り組むオプションもある。 シミュレーションにより、beSnakeは1000ドル(約1万1000円)の量子ビットを持つランダム回路や実量子アルゴリズム上の既存のルーティングソリューションに対する利点を示し、ゲートオーバーヘッドが80ドル(約8万3000円)、奥行きオーバーヘッドが54ドル(約5万3000円)、ルーティング時間が最大8.33ドル(約8万3000円)という平均的な改善を示している。

As quantum computing devices increase in size with respect to the number of qubits, two-qubit interactions become more challenging, necessitating innovative and scalable qubit routing solutions. In this work, we introduce beSnake, a novel algorithm specifically designed to address the intricate qubit routing challenges in scalable spin-qubit architectures. Unlike traditional methods in superconducting architectures that solely rely on SWAP operations, beSnake also incorporates the shuttle operation to optimize the execution time and fidelity of quantum circuits and achieves fast computation times of the routing task itself. Employing a simple breadth-first search approach, beSnake effectively manages the restrictions created by diverse topologies and qubit positions acting as obstacles, for up to 72\% qubit density. It also has the option to adjust the level of optimization and to dynamically tackle parallelized routing tasks, all the while maintaining noise awareness. Our simulations demonstrate beSnake's advantage over an existing routing solution on random circuits and real quantum algorithms with up to $1,000$ qubits, showing an average improvement of up to $80\%$ in gate overhead and $54\%$ in depth overhead, and up to $8.33$ times faster routing times.
翻訳日:2024-05-02 17:55:26 公開日:2024-05-01
# MR画像からの腰椎椎間板のアーチファクトフリー幾何再構成のための注意型形状変形ネットワーク

Attention-based Shape-Deformation Networks for Artifact-Free Geometry Reconstruction of Lumbar Spine from MR Images ( http://arxiv.org/abs/2404.00231v3 )

ライセンス: Link先を確認
Linchen Qian, Jiasong Chen, Linhai Ma, Timur Urakov, Weiyong Gu, Liang Liang, (参考訳) 腰椎椎間板の進行的構造と損傷である腰椎椎間板変性は腰痛に重要な役割を担っていると考えられている。 MR画像からの腰椎形状自動再構築により, 医療パラメータの迅速測定により, 腰部状態の評価が可能となり, 適切な治療が期待できる。 既存の画像セグメンテーションに基づく技術は、しばしば医療パラメータ測定には適さない誤ったセグメントや非構造化点雲を生成する。 本稿では, 腰部脊柱の形状を高空間精度で再構成し, 患者間のメッシュ対応を図り, 誤り推定のために$\textit{UNet-DeformSA}$および$\textit{TransDeformer}$を示す。 特に,画像のセグメンテーションを必要とせずに形状テンプレート上の点の変位を予測するために,画像特徴とトークン化された輪郭特徴を統合した新しいアテンション式を考案した。 変形テンプレートは、画像内の腰椎の形状を明らかにする。 実験の結果、我々のネットワークはアーティファクトフリーな幾何出力を生成しており、$\textit{TransDeformer}$の変種は再構成された幾何の誤差を予測することができることがわかった。 私たちのコードはhttps://github.com/linchenq/TransDeformer-Meshで利用可能です。

Lumbar disc degeneration, a progressive structural wear and tear of lumbar intervertebral disc, is regarded as an essential role on low back pain, a significant global health concern. Automated lumbar spine geometry reconstruction from MR images will enable fast measurement of medical parameters to evaluate the lumbar status, in order to determine a suitable treatment. Existing image segmentation-based techniques often generate erroneous segments or unstructured point clouds, unsuitable for medical parameter measurement. In this work, we present $\textit{UNet-DeformSA}$ and $\textit{TransDeformer}$: novel attention-based deep neural networks that reconstruct the geometry of the lumbar spine with high spatial accuracy and mesh correspondence across patients, and we also present a variant of $\textit{TransDeformer}$ for error estimation. Specially, we devise new attention modules with a new attention formula, which integrate image features and tokenized contour features to predict the displacements of the points on a shape template without the need for image segmentation. The deformed template reveals the lumbar spine geometry in an image. Experiment results show that our networks generate artifact-free geometry outputs, and the variant of $\textit{TransDeformer}$ can predict the errors of a reconstructed geometry. Our code is available at https://github.com/linchenq/TransDeformer-Mesh.
翻訳日:2024-05-02 17:55:26 公開日:2024-05-01
# 伝達学習を用いたプロセス制御のための強化学習のファシリテート:視点

Facilitating Reinforcement Learning for Process Control Using Transfer Learning: Perspectives ( http://arxiv.org/abs/2404.00247v2 )

ライセンス: Link先を確認
Runze Lin, Junghui Chen, Lei Xie, Hongye Su, Biao Huang, (参考訳) 本稿では,伝達学習の観点からプロセス制御のための深層強化学習(DRL)の知見を提供する。 本稿では,プロセス産業分野におけるDRLの適用課題と転向学習の導入の必要性について分析する。 さらに、DRLと転写学習をどのように統合してプロセス制御を強化するかについて、今後の研究の方向性として推奨と展望が提供される。

This paper provides insights into deep reinforcement learning (DRL) for process control from the perspective of transfer learning. We analyze the challenges of applying DRL in the field of process industries and the necessity of introducing transfer learning. Furthermore, recommendations and prospects are provided for future research directions on how transfer learning can be integrated with DRL to empower process control.
翻訳日:2024-05-02 17:55:26 公開日:2024-05-01
# HairFastGAN:高速エンコーダによる実効性とロバストなヘアトランスファー

HairFastGAN: Realistic and Robust Hair Transfer with a Fast Encoder-Based Approach ( http://arxiv.org/abs/2404.01094v2 )

ライセンス: Link先を確認
Maxim Nikolaev, Mikhail Kuznetsov, Dmitry Vetrov, Aibek Alanov, (参考訳) 本稿では,ヘアスタイルを参照画像から入力写真に転送する複雑な作業に対処し,バーチャルヘアトライオンを行う。 この課題は、さまざまな写真のポーズ、髪型の感度、客観的な指標の欠如に適応する必要があるため、困難である。 現在の最先端のヘアスタイル転送手法では、アプローチの異なる部分に対して最適化プロセスを使用しており、非常に遅い。 同時に、より高速なエンコーダベースのモデルは、StyleGANのW+空間で動作するか、他の低次元イメージジェネレータを使用するため、非常に低品質である。 さらに、両方のアプローチは、ソースのポーズがターゲットのポーズと非常に異なる場合、そのポーズを全く考慮しないか、非効率に扱うため、ヘアスタイルの転送に問題がある。 本稿では,これらの問題を一意に解き,高分解能,ほぼリアルタイム性能を実現し,最適化問題に基づく手法よりも優れた再構成を実現するHairFastモデルを提案する。 我々のソリューションには、FS潜在空間のStyleGANで動く新しいアーキテクチャ、拡張された塗装アプローチ、アライメント改善のためのエンコーダの改善、カラー転送、ポストプロセッシングのための新しいエンコーダが含まれる。 提案手法の有効性は, 髪型移行時におけるランダムな髪型移動と再構成後のリアリズム指標で示される。 ヘアスタイルの形状と色を異なる画像から転送する最も難しいシナリオでは、Nvidia V100上で1秒未満で実行することができる。 私たちのコードはhttps://github.com/AIRI-Institute/HairFastGANで利用可能です。

Our paper addresses the complex task of transferring a hairstyle from a reference image to an input photo for virtual hair try-on. This task is challenging due to the need to adapt to various photo poses, the sensitivity of hairstyles, and the lack of objective metrics. The current state of the art hairstyle transfer methods use an optimization process for different parts of the approach, making them inexcusably slow. At the same time, faster encoder-based models are of very low quality because they either operate in StyleGAN's W+ space or use other low-dimensional image generators. Additionally, both approaches have a problem with hairstyle transfer when the source pose is very different from the target pose, because they either don't consider the pose at all or deal with it inefficiently. In our paper, we present the HairFast model, which uniquely solves these problems and achieves high resolution, near real-time performance, and superior reconstruction compared to optimization problem-based methods. Our solution includes a new architecture operating in the FS latent space of StyleGAN, an enhanced inpainting approach, and improved encoders for better alignment, color transfer, and a new encoder for post-processing. The effectiveness of our approach is demonstrated on realism metrics after random hairstyle transfer and reconstruction when the original hairstyle is transferred. In the most difficult scenario of transferring both shape and color of a hairstyle from different images, our method performs in less than a second on the Nvidia V100. Our code is available at https://github.com/AIRI-Institute/HairFastGAN.
翻訳日:2024-05-02 17:55:26 公開日:2024-05-01
# Unbiased Learning to Rankが現実に到達 - Baiduの大規模検索データセットから学んだこと

Unbiased Learning to Rank Meets Reality: Lessons from Baidu's Large-Scale Search Dataset ( http://arxiv.org/abs/2404.02543v2 )

ライセンス: Link先を確認
Philipp Hager, Romain Deffayet, Jean-Michel Renders, Onno Zoeter, Maarten de Rijke, (参考訳) Unbiased Learning-to-rank(ULTR)は、ユーザのクリックから学習するための、確立されたフレームワークである。 理論上は正当化され、シミュレーションで広範囲にテストされたが、ULTR技術は特に現代の検索エンジンでは実証的な検証を欠いている。 Baiduの検索エンジンから収集されたWSDM Cup 2023向けにリリースされたBaidu-ULTRデータセットは、著名なULTR技術の実際のパフォーマンスを評価する稀な機会を提供する。 WSDMカップ2023およびその後のNTCIR ULTRE-2タスクにおける複数の提案にもかかわらず、観察された改善がULTRや他の学習技術の適用に起因するかどうかは不明である。 本研究では,Baidu-ULTRデータセット上で利用可能な実験を再検討し,拡張する。 標準のアンバイアスド・ラーニング・ツー・ランク技術は、クリック予測を堅牢に改善するが、ランキングの損失とクエリ文書の特徴の選択によって得られる大きな違いを考えると、常にランク付け性能を改善するのに苦慮している。 提案実験により, クリック予測におけるゲインは, 専門家関連アノテーションのランク付け性能の向上に必ずしも寄与しないことが明らかとなった。

Unbiased learning-to-rank (ULTR) is a well-established framework for learning from user clicks, which are often biased by the ranker collecting the data. While theoretically justified and extensively tested in simulation, ULTR techniques lack empirical validation, especially on modern search engines. The Baidu-ULTR dataset released for the WSDM Cup 2023, collected from Baidu's search engine, offers a rare opportunity to assess the real-world performance of prominent ULTR techniques. Despite multiple submissions during the WSDM Cup 2023 and the subsequent NTCIR ULTRE-2 task, it remains unclear whether the observed improvements stem from applying ULTR or other learning techniques. In this work, we revisit and extend the available experiments on the Baidu-ULTR dataset. We find that standard unbiased learning-to-rank techniques robustly improve click predictions but struggle to consistently improve ranking performance, especially considering the stark differences obtained by choice of ranking loss and query-document features. Our experiments reveal that gains in click prediction do not necessarily translate to enhanced ranking performance on expert relevance annotations, implying that conclusions strongly depend on how success is measured in this benchmark.
翻訳日:2024-05-02 17:55:26 公開日:2024-05-01
# QFNN-FFD:ファイナンシャルフラッド検出のための量子フェデレーションニューラルネットワーク

QFNN-FFD: Quantum Federated Neural Network for Financial Fraud Detection ( http://arxiv.org/abs/2404.02595v2 )

ライセンス: Link先を確認
Nouhaila Innan, Alberto Marchisio, Muhammad Shafique, Mohamed Bennai, (参考訳) 本研究では,QFNN-FFD(Quantum Federated Neural Network for Financial Fraud Detection),QML(Quantum Machine Learning)とFL(Federated Learning)を融合した最先端フレームワークを提案する。 量子技術の計算能力とFLが提供する堅牢なデータプライバシー保護を利用することで、QFNN-FFDは金融セクター内の不正取引を識別するための安全かつ効率的な方法として出現する。 分散クライアント間でのデュアルフェーズトレーニングモデルの実装は、データの整合性を高め、優れたパフォーマンスメトリクスを可能にし、95%以上の精度を達成する。 さらに、QFNN-FFDは80%の精度を維持し、現実世界のアプリケーションに対する堅牢性と準備性を強調し、例外的なレジリエンスを示している。 このハイパフォーマンス、セキュリティ、およびノイズ位置に対する堅牢性の組み合わせは、金融技術ソリューションの革新的進歩としてQFNN-FFDであり、プライバシを重視した不正検出システムのための新しいベンチマークとして確立されている。 このフレームワークは、セキュアで量子化された金融サービスの広範な採用を促進するとともに、QMLを使用して機密度と正確性を必要とする他の領域の複雑な課題に対処する将来のイノベーションを刺激する。

This study introduces the Quantum Federated Neural Network for Financial Fraud Detection (QFNN-FFD), a cutting-edge framework merging Quantum Machine Learning (QML) and quantum computing with Federated Learning (FL) for financial fraud detection. Using quantum technologies' computational power and the robust data privacy protections offered by FL, QFNN-FFD emerges as a secure and efficient method for identifying fraudulent transactions within the financial sector. Implementing a dual-phase training model across distributed clients enhances data integrity and enables superior performance metrics, achieving precision rates consistently above 95%. Additionally, QFNN-FFD demonstrates exceptional resilience by maintaining an impressive 80% accuracy, highlighting its robustness and readiness for real-world applications. This combination of high performance, security, and robustness against noise positions QFNN-FFD as a transformative advancement in financial technology solutions and establishes it as a new benchmark for privacy-focused fraud detection systems. This framework facilitates the broader adoption of secure, quantum-enhanced financial services and inspires future innovations that could use QML to tackle complex challenges in other areas requiring high confidentiality and accuracy.
翻訳日:2024-05-02 17:45:32 公開日:2024-05-01
# FlightScope:衛星画像における航空機検出アルゴリズムの総合評価

FlightScope: A Deep Comprehensive Assessment of Aircraft Detection Algorithms in Satellite Imagery ( http://arxiv.org/abs/2404.02877v2 )

ライセンス: Link先を確認
Safouane El Ghazouali, Arnaud Gucciardi, Nicola Venturi, Michael Rueegsegger, Umberto Michelucci, (参考訳) リモートセンシングされた衛星画像における物体検出は、生物物理学や環境モニタリングなど多くの分野において基本的なものである。 ディープラーニングのアルゴリズムは常に進化しているが、それらは主に、人気の高い地上写真で実装され、テストされている。 本稿では,衛星画像中の航空機を識別するタスク用にカスタマイズされた,高度な物体検出アルゴリズム群を批判的に評価し,比較する。 大規模なHRPlanesV2データセットとGDITデータセットとの厳密な検証を併用して、この研究は、YOLOバージョン5と8、高速RCNN、CenterNet、RetinaNet、RTMDet、DETRなどを含む一連の方法論をスクラッチからトレーニングする。 この徹底的なトレーニングと検証研究により、YOLOv5は、リモートセンシングデータから航空機を識別し、多様な撮像条件で高精度かつ適応性を示すための最重要モデルであることが判明した。 YOLOv5は空中物体検出の堅牢なソリューションとして登場し、平均値の精度、リコール、ユニオン点数に対するインターセクションなどによってその重要性を浮き彫りにした。 ここでは,衛星画像解析の要求に応じたアルゴリズム選択の基本的役割を明らかにし,モデルの有効性を評価するための包括的な枠組みを拡張した。 ベンチマークツールキットとコードはhttps://github.com/toelt-llc/FlightScope_Benchを通じて利用可能であり、リモートセンシングオブジェクト検出の領域におけるさらなる探索と革新を目的としており、衛星画像アプリケーションにおける分析方法論の改善の道を開くことを目的としている。

Object detection in remotely sensed satellite pictures is fundamental in many fields such as biophysical, and environmental monitoring. While deep learning algorithms are constantly evolving, they have been mostly implemented and tested on popular ground-based taken photos. This paper critically evaluates and compares a suite of advanced object detection algorithms customized for the task of identifying aircraft within satellite imagery. Using the large HRPlanesV2 dataset, together with a rigorous validation with the GDIT dataset, this research encompasses an array of methodologies including YOLO versions 5 and 8, Faster RCNN, CenterNet, RetinaNet, RTMDet, and DETR, all trained from scratch. This exhaustive training and validation study reveal YOLOv5 as the preeminent model for the specific case of identifying airplanes from remote sensing data, showcasing high precision and adaptability across diverse imaging conditions. This research highlight the nuanced performance landscapes of these algorithms, with YOLOv5 emerging as a robust solution for aerial object detection, underlining its importance through superior mean average precision, Recall, and Intersection over Union scores. The findings described here underscore the fundamental role of algorithm selection aligned with the specific demands of satellite imagery analysis and extend a comprehensive framework to evaluate model efficacy. The benchmark toolkit and codes, available via https://github.com/toelt-llc/FlightScope_Bench, aims to further exploration and innovation in the realm of remote sensing object detection, paving the way for improved analytical methodologies in satellite imagery applications.
翻訳日:2024-05-02 17:45:32 公開日:2024-05-01
# ニュートリノ・ウェーブパレットの空間的極性に関する直接実験的制約

Direct Experimental Constraints on the Spatial Extent of a Neutrino Wavepacket ( http://arxiv.org/abs/2404.03102v3 )

ライセンス: Link先を確認
Joseph Smolsky, Kyle G Leach, Ryan Abells, Pedro Amaro, Adrien Andoche, Keith Borbridge, Connor Bray, Robin Cantor, David Diercks, Spencer Fretwell, Stephan Friedrich, Abigail Gillespie, Mauro Guerra, Ad Hall, Cameron N Harris, Jackson T Harris, Calvin Hinkle, Amii Lamm, Leendert M Hayen, Paul-Antoine Hervieux, Geon-Bo Kim, Inwook Kim, Annika Lennarz, Vincenzo Lordi, Jorge Machado, Andrew Marino, David McKeen, Xavier Mougeot, Francisco Ponce, Chris Ruiz, Amit Samanta, José Paulo Santos, Caitlyn Stone-Whitehead, John Taylor, Joseph Templet, Sriteja Upadhyayula, Louis Wagner, William K Warburton, (参考訳) ニュートリノは宇宙の相対的な存在量が高いにもかかわらず、自然界の基本的な粒子としては最も理解されていない。 また、量子コヒーレンスと粒子の波状性質を研究するためのユニークなシステムも提供する。 実際、実験的なソースで放出されるニュートリノの量子的性質は事実上不明であり、ニュートリノ波束の空間範囲は13桁の広がりを持つ原子炉ニュートリノ振動データによってゆるく制限されているのみである。 ここでは、核電子捕獲(EC)崩壊時に放出される反核子核のエネルギー幅$\sigma_{\textrm{N},E}$を抽出する新しい実験的概念により、この量の最初の直接的限界を提示する。 EC崩壊過程の最終状態は、再沸騰する$^7$Li核と電子ニュートリノ(\nu_e$)を含む。 $^7$Liエネルギースペクトルは、低温センサとして動作する高分解能超伝導トンネル接合部に直接、$^7$Be放射性同位体を直接埋め込むことにより、高精度に測定される。 リコイル娘の空間的不確実性に対する低い限界は$\sigma_{\textrm{N}, x} \geq 6.2$\,pmであることが判明した。 この測定から,ニュートリノウェーブパレットの空間範囲における第1の直接下限を2つの異なる理論手法を用いて抽出した。 これらの結果は、サブ原子スケールでの空間的局所化の性質、ニュートリノ物理データの解釈、将来の大規模実験の可能性など、いくつかの領域において幅広い意味を持つ。

Despite their high relative abundance in our Universe, neutrinos are the least understood fundamental particles of nature. They also provide a unique system to study quantum coherence and the wavelike nature of particles in fundamental systems due to their extremely weak interaction probabilities. In fact, the quantum properties of neutrinos emitted in experimentally relevant sources are virtually unknown and the spatial extent of the neutrino wavepacket is only loosely constrained by reactor neutrino oscillation data with a spread of 13 orders of magnitude. Here, we present the first direct limits of this quantity through a new experimental concept to extract the energy width, $\sigma_{\textrm{N},E}$, of the recoil daughter nucleus emitted in the nuclear electron capture (EC) decay of $^7$Be. The final state in the EC decay process contains a recoiling $^7$Li nucleus and an electron neutrino ($\nu_e$) which are entangled at their creation. The $^7$Li energy spectrum is measured to high precision by directly embedding $^7$Be radioisotopes into a high resolution superconducting tunnel junction that is operated as a cryogenic sensor. The lower limit on the spatial uncertainty of the recoil daughter was found to be $\sigma_{\textrm{N}, x} \geq 6.2$\,pm, which implies the final-state system is localized at a scale more than a thousand times larger than the nucleus itself. From this measurement, the first direct lower limits on the spatial extent of the neutrino wavepacket were extracted using two different theoretical methods. These results have wide-reaching implications in several areas including the nature of spatial localization at sub-atomic scales, interpretation of neutrino physics data, and the potential reach of future large-scale experiments.
翻訳日:2024-05-02 17:45:32 公開日:2024-05-01
# パートアテンションに基づくモデルにより、付加した人物の認識をより強くする

Part-Attention Based Model Make Occluded Person Re-Identification Stronger ( http://arxiv.org/abs/2404.03443v4 )

ライセンス: Link先を確認
Zhihao Chen, Yiyuan Ge, (参考訳) 密閉者再識別(ReID)の目的は、密閉された状況下で特定の歩行者を回収することである。 しかし、隠された人物であるReIDは、モデルの性能を制限する、バックグラウンドの乱雑さと低品質なローカル特徴表現に悩まされている。 本研究では, 上記の課題に効果的に取り組むために, パートアテンション機構を組み込んだ新しいReIDモデルであるPAB-ReIDを提案する。 まず、より正確な人的部分注意マップの生成を導くために、人間のパーシングラベルを導入する。 また、背景干渉を抑えつつ、きめ細かい人間の局所的特徴表現を生成するための細粒度特徴焦点器を提案する。 さらに,クラス内/クラス間距離を最適化する局所特徴の学習を監督するために,部分三重項損失を設計する。 我々は、特殊閉塞とレギュラーReIDデータセットに関する広範な実験を行い、我々のアプローチが既存の最先端手法よりも優れていることを示した。

The goal of occluded person re-identification (ReID) is to retrieve specific pedestrians in occluded situations. However, occluded person ReID still suffers from background clutter and low-quality local feature representations, which limits model performance. In our research, we introduce a new framework called PAB-ReID, which is a novel ReID model incorporating part-attention mechanisms to tackle the aforementioned issues effectively. Firstly, we introduce the human parsing label to guide the generation of more accurate human part attention maps. In addition, we propose a fine-grained feature focuser for generating fine-grained human local feature representations while suppressing background interference. Moreover, We also design a part triplet loss to supervise the learning of human local features, which optimizes intra/inter-class distance. We conducted extensive experiments on specialized occlusion and regular ReID datasets, showcasing that our approach outperforms the existing state-of-the-art methods.
翻訳日:2024-05-02 17:45:32 公開日:2024-05-01
# スーパーAIがどんなものか、Fermiのパラドックスを解説する

Cooperative Evolutionary Pressure and Diminishing Returns Might Explain the Fermi Paradox: On What Super-AIs Are Like ( http://arxiv.org/abs/2404.03685v2 )

ライセンス: Link先を確認
Daniel Vallstrom, (参考訳) 進化的アプローチでは、モラルの基盤は協力の問題への適応として説明できる。 広い意味での「進化」によって、進化の条件を満たす進化するAIは、生物学的実体と同じ協力的な進化の圧力を受けることになる。 ここでは、材料安全と富の増大としての協力の増加の適応性について論じ、人間、他の社会、AIについて論じる。 物質資源へのアクセスの増加による有益なリターンの最小化は、例えば銀河全体を植民地化する動機がない可能性も示唆している。 古い社会は、スーパーAIが実現可能で、より適している可能性が高いため、スーパーAIにエンゲージし、道を譲ることが可能である、とも主張されている。 クローシングは、道徳や目標が生活や社会に影響を与えるための効果的な方法、環境、文化、法律を強調し、食事の方法によって例示されるものである。 適応されたアルゴリズムは、例えば銀河を素早く植民地化するアルゴリズム、減少するリターンの下での協調と公正性の進化のモデル、およびシグナル発生をシミュレートするソフトウェアである。 また、各実体が一定の空間を占有するため、数学的理由から指数的植民地化や複製はできないことも注目されている。

With an evolutionary approach, the basis of morality can be explained as adaptations to problems of cooperation. With 'evolution' taken in a broad sense, evolving AIs that satisfy the conditions for evolution to apply will be subject to the same cooperative evolutionary pressure as biological entities. Here the adaptiveness of increased cooperation as material safety and wealth increase is discussed -- for humans, for other societies, and for AIs. Diminishing beneficial returns from increased access to material resources also suggests the possibility that, on the whole, there will be no incentive to for instance colonize entire galaxies, thus providing a possible explanation of the Fermi paradox, wondering where everybody is. It is further argued that old societies could engender, give way to, super-AIs, since it is likely that super-AIs are feasible, and fitter. Closing is an aside on effective ways for morals and goals to affect life and society, emphasizing environments, cultures, and laws, and exemplified by how to eat. Appended are an algorithm for colonizing for example a galaxy quickly, models of the evolution of cooperation and fairness under diminishing returns, and software for simulating signaling development. It is also noted that there can be no exponential colonization or reproduction, for mathematical reasons, as each entity takes up a certain amount of space.
翻訳日:2024-05-02 17:45:32 公開日:2024-05-01
# カメラを用いた顔写真撮影のための方位条件付き顔テクスチャマッピング

Orientation-conditioned Facial Texture Mapping for Video-based Facial Remote Photoplethysmography Estimation ( http://arxiv.org/abs/2404.09378v3 )

ライセンス: Link先を確認
Sam Cantrill, David Ahmedt-Aristizabal, Lars Petersson, Hanna Suominen, Mohammad Ali Armin, (参考訳) カメラベースのリモート光胸腺撮影(rPPG)は、パルスレート(PR)などの重要な生理的信号の接触のない計測を可能にする。 しかし、動的・非拘束な被写体運動は、映像における顔の外観に有意な変動をもたらし、rPPG信号を正確に抽出するビデオベース手法の能力に反する。 本研究では,3次元顔表面を利用して,既存の映像ベース顔rPPG推定手法の動作堅牢性を向上させる,配向条件付き顔テクスチャ映像表現を新たに構築する。 提案手法は、PUREでトレーニングしたPhysNetモデルを用いて、MMPD上でのクロスデータセットテストにおいて、18.2%の性能向上を実現し、設計したビデオ表現の有効性と一般化の利点を強調した。 MMPDを用いたクロスデータセットテストでは,動的,非拘束的動作においても最大29.6%の性能向上がみられ,3次元顔表面をモデルとした3次元顔面rPPG推定によるアンタングル運動の利点が強調された。 アブレーション研究により, 設計決定の有効性と, 異なる映像処理工程の影響を検証した。 本研究は3次元顔表面を動的・非拘束な被写体運動に対処するための一般的な戦略として活用する可能性を示した。 コードはhttps://samcantrill.github.io/orientation-uv-rppg/で公開されている。

Camera-based remote photoplethysmography (rPPG) enables contactless measurement of important physiological signals such as pulse rate (PR). However, dynamic and unconstrained subject motion introduces significant variability into the facial appearance in video, confounding the ability of video-based methods to accurately extract the rPPG signal. In this study, we leverage the 3D facial surface to construct a novel orientation-conditioned facial texture video representation which improves the motion robustness of existing video-based facial rPPG estimation methods. Our proposed method achieves a significant 18.2% performance improvement in cross-dataset testing on MMPD over our baseline using the PhysNet model trained on PURE, highlighting the efficacy and generalization benefits of our designed video representation. We demonstrate significant performance improvements of up to 29.6% in all tested motion scenarios in cross-dataset testing on MMPD, even in the presence of dynamic and unconstrained subject motion, emphasizing the benefits of disentangling motion through modeling the 3D facial surface for motion robust facial rPPG estimation. We validate the efficacy of our design decisions and the impact of different video processing steps through an ablation study. Our findings illustrate the potential strengths of exploiting the 3D facial surface as a general strategy for addressing dynamic and unconstrained subject motion in videos. The code is available at https://samcantrill.github.io/orientation-uv-rppg/.
翻訳日:2024-05-02 17:45:32 公開日:2024-05-01
# 求人市場を考えるためのコースレコメンダシステム

Course Recommender Systems Need to Consider the Job Market ( http://arxiv.org/abs/2404.10876v2 )

ライセンス: Link先を確認
Jibril Frej, Anna Dai, Syrielle Montariol, Antoine Bosselut, Tanja Käser, (参考訳) 現在のコースレコメンデータシステムは、主に学習者同士の相互作用、コースの内容、学習者の好み、インストラクター、制度、評価、レビューといった補足的なコースの詳細を活用してレコメンデーションを行う。 しかし、これらのシステムは、求人市場の進化するスキル需要という重要な側面をしばしば見落としている。 本稿では,職業市場のスキル要求を取り入れたコースレコメンデーションシステムの構築を目指して,産業界と連携して研究を行う学術研究者の視点に焦点を当てる。 求人市場の急激な変化と研究の現状を踏まえ、これらの要求を効果的に解決するためのコースレコメンデータシステムの基本的特性を概説する。 本研究は、求人情報から教師なしのスキル抽出、コース記述、履歴書、学習者目標と求人市場に対応するレコメンデーションの予測、このアライメントを評価するためのメトリクスの設計など、この目的がもたらす課題や研究課題にも及んでいる。 さらに,スキル抽出に大規模言語モデル(LLM)を,ジョブ市場に合わせて強化学習(RL)を併用した,既存のリコメンデータシステムに対処する初期システムを導入する。 オープンソースデータを用いて実験結果を提供し,その有効性を実証する。

Current course recommender systems primarily leverage learner-course interactions, course content, learner preferences, and supplementary course details like instructor, institution, ratings, and reviews, to make their recommendation. However, these systems often overlook a critical aspect: the evolving skill demand of the job market. This paper focuses on the perspective of academic researchers, working in collaboration with the industry, aiming to develop a course recommender system that incorporates job market skill demands. In light of the job market's rapid changes and the current state of research in course recommender systems, we outline essential properties for course recommender systems to address these demands effectively, including explainable, sequential, unsupervised, and aligned with the job market and user's goals. Our discussion extends to the challenges and research questions this objective entails, including unsupervised skill extraction from job listings, course descriptions, and resumes, as well as predicting recommendations that align with learner objectives and the job market and designing metrics to evaluate this alignment. Furthermore, we introduce an initial system that addresses some existing limitations of course recommender systems using large Language Models (LLMs) for skill extraction and Reinforcement Learning (RL) for alignment with the job market. We provide empirical results using open-source data to demonstrate its effectiveness.
翻訳日:2024-05-02 17:45:32 公開日:2024-05-01
# 自由空間における大きな相互作用駆動原子アンサンブルにおける超ラジカル相転移

Superradiant phase transition in a large interacting driven atomic ensemble in free space ( http://arxiv.org/abs/2404.12939v2 )

ライセンス: Link先を確認
Janne Ruostekoski, (参考訳) 光と強く相互作用する原子アンサンブルは、豊富な量子光学多体系を構成し、協調効果や散逸性非平衡相転移を観測する可能性がある。 我々は,強い双極子-双極子相互作用と広い空間範囲の相互作用を特徴とする自由空間における原子アンサンブルが,超ラジカル相転移(共振蛍光)を起こすことができる条件を理論的に解析する。 原子配列において、集合擬似スピンを保存する定常状態は、完全に協調的な崩壊を示し、大きな原子番号の極限において二階相転移を行う。 対照的に、擬似スピンの保存に失敗した長い時間スケールでの崩壊機構は、臨界有限原子数における不連続な一階相転移を招き、多くの類似した観測可能な特性を共有しながら協調を妨害する。 超ラジアント相転移の目印は、光強度の関数として重要な量子ゆらぎを伴う、原子からの全光反射から急速に増加する透過への急激なシフトである。

Atomic ensembles strongly interacting with light constitute rich quantum-optical many-body systems, with the potential for observing cooperative effects and dissipative nonequilibrium phase transitions. We theoretically analyze the conditions under which a driven atomic ensemble in free space, characterized by strong dipole-dipole interactions and large spatial extent, can undergo a superradiant phase transition, also known as cooperative resonance fluorescence. In an atomic array, stationary states that conserve the collective pseudospin exhibit completely cooperative decay and undergo a second-order phase transition in the large atom number limit. In contrast, decay mechanisms on longer timescales that fail to conserve pseudospin can lead to discontinuous first-order phase transition at a critical finite atom number, disrupting cooperation despite sharing many similar observable characteristics. A hallmark of the superradiant phase transition is an abrupt shift from total light reflection off the atoms to rapidly increasing transmission, accompanied by significant quantum fluctuations, as a function of light intensity.
翻訳日:2024-05-02 17:45:32 公開日:2024-05-01
# HCEyeに焦点を移す - 視覚的ハイライトと認知的負荷のダイナミクスがユーザの注意と満足度予測に与える影響を探求する

Shifting Focus with HCEye: Exploring the Dynamics of Visual Highlighting and Cognitive Load on User Attention and Saliency Prediction ( http://arxiv.org/abs/2404.14232v2 )

ライセンス: Link先を確認
Anwesha Das, Zekun Wu, Iza Škrjanec, Anna Maria Feit, (参考訳) ビジュアルハイライトは、複雑なインターフェイスでユーザーの注意を誘導する。 しかし、注意力の制限による効果は未発見である。 本稿では,視覚強調(永続的・動的)と両タスクによる認知負荷が視線行動に及ぼす影響について検討する。 150のユニークなWebページを見る27人の被験者の眼球運動データを用いて分析したところ、認知負荷の増加に伴い、参加者のUI要素への参加能力は低下するが、動的適応(ハイライト)は注意を引くままであることがわかった。 これらの要因の存在は、人々が出席するものと、従順なものを大きく変えます。 したがって, 認知負荷の異なる場合, 最先端の正当性モデルでは, 性能が向上することを示す。 私たちの経験的な洞察は、オープンに利用可能なデータセットとともに、さまざまな認知的(そして知覚的)負荷の下でUIの注意プロセスの理解を高め、マルチタスク中にユーザの注意を予測できる新しいモデルへの扉を開くのです。

Visual highlighting can guide user attention in complex interfaces. However, its effectiveness under limited attentional capacities is underexplored. This paper examines the joint impact of visual highlighting (permanent and dynamic) and dual-task-induced cognitive load on gaze behaviour. Our analysis, using eye-movement data from 27 participants viewing 150 unique webpages reveals that while participants' ability to attend to UI elements decreases with increasing cognitive load, dynamic adaptations (i.e., highlighting) remain attention-grabbing. The presence of these factors significantly alters what people attend to and thus what is salient. Accordingly, we show that state-of-the-art saliency models increase their performance when accounting for different cognitive loads. Our empirical insights, along with our openly available dataset, enhance our understanding of attentional processes in UIs under varying cognitive (and perceptual) loads and open the door for new models that can predict user attention while multitasking.
翻訳日:2024-05-02 17:45:32 公開日:2024-05-01
# プレトレーニングモデル利用の課題--実践者の立場から

Challenges of Using Pre-trained Models: the Practitioners' Perspective ( http://arxiv.org/abs/2404.14710v2 )

ライセンス: Link先を確認
Xin Tan, Taichuan Li, Ruohe Chen, Fang Liu, Li Zhang, (参考訳) プレトレーニングモデル(PTM)の使用に関する課題は、その有効利用を阻害する、具体的には検討されていない。 この知識ギャップに対処するため、Stack Overflowで5,896のPTM関連質問のデータセットを収集し、分析した。 PTM関連質問の人気と難易度をまず分析する。 PTM関連の質問が徐々に人気になってきています。 しかしながら, PTM関連の質問は, 応答速度が低いだけでなく, ソフトウェア工学における多くのよく研究されているトピックと比較して, 応答時間が長いことも注目に値する。 この観察は, PTMの実用化に伴う難易度と難易度を強調した。 特定の課題を掘り下げるために、手動で430のPTM関連の質問を注釈付けし、42のコード(葉ノード)と3つのカテゴリの階層的な分類に分類した。 この分類学は、細調整、アウトプット理解、迅速なカスタマイズなど、多くのPTMの顕著な課題を包含しており、これは現在の技術と実践的ニーズのギャップを反映している。 我々は, PTM実践者, ベンダー, 教育者に対する研究の意味を考察し, 今後の研究の方向性と解決策を提案する。

The challenges associated with using pre-trained models (PTMs) have not been specifically investigated, which hampers their effective utilization. To address this knowledge gap, we collected and analyzed a dataset of 5,896 PTM-related questions on Stack Overflow. We first analyze the popularity and difficulty trends of PTM-related questions. We find that PTM-related questions are becoming more and more popular over time. However, it is noteworthy that PTM-related questions not only have a lower response rate but also exhibit a longer response time compared to many well-researched topics in software engineering. This observation emphasizes the significant difficulty and complexity associated with the practical application of PTMs. To delve into the specific challenges, we manually annotate 430 PTM-related questions, categorizing them into a hierarchical taxonomy of 42 codes (i.e., leaf nodes) and three categories. This taxonomy encompasses many PTM prominent challenges such as fine-tuning, output understanding, and prompt customization, which reflects the gaps between current techniques and practical needs. We discuss the implications of our study for PTM practitioners, vendors, and educators, and suggest possible directions and solutions for future research.
翻訳日:2024-05-02 17:45:32 公開日:2024-05-01
# 量子計量による非エルミート臨界点の同定

Identifying non-Hermitian critical points with quantum metric ( http://arxiv.org/abs/2404.15628v2 )

ライセンス: Link先を確認
Jun-Feng Ren, Jing Li, Hai-Tao Ding, Dan-Wei Zhang, (参考訳) 量子状態の幾何学的性質は、量子幾何学テンソルによって完全に符号化される。 量子幾何テンソルの実部と虚部は、それぞれヒルベルト空間内の2つの近接量子状態間の距離と位相差を特徴づける量子計量とベリー曲率である。 従来のエルミート量子系では、量子メートル法は忠実度感受性に対応しており、幾何学的な観点からの量子相転移の特定に既に使われている。 本研究では、この知恵を非エルミート系に拡張し、非エルミート臨界点を明らかにする。 具体的には、数値的厳密な対角化法と解析法を用いることで、非エルミート一般化オーブリー・アンドル・マインモデルと非エルミートクラスタと混合場イジングモデルを含む様々な非エルミートモデルにおける量子メートル法と対応する順序パラメータを計算する。 これらの非エルミートモデルにおける固有状態の量子計量は、それぞれ局在化遷移、移動エッジ、および多体量子相転移を正確に同定する。 さらに、この戦略は有限サイズ効果と異なる境界条件に対して堅牢であることを示す。

The geometric properties of quantum states is fully encoded by the quantum geometric tensor. The real and imaginary parts of the quantum geometric tensor are the quantum metric and Berry curvature, which characterize the distance and phase difference between two nearby quantum states in Hilbert space, respectively. For conventional Hermitian quantum systems, the quantum metric corresponds to the fidelity susceptibility and has already been used to specify quantum phase transitions from the geometric perspective. In this work, we extend this wisdom to the non-Hermitian systems for revealing non-Hermitian critical points. To be concrete, by employing numerical exact diagonalization and analytical methods, we calculate the quantum metric and corresponding order parameters in various non-Hermitian models, which include two non-Hermitian generalized Aubry-Andr\'{e} models and non-Hermitian cluster and mixed-field Ising models. We demonstrate that the quantum metric of eigenstates in these non-Hermitian models exactly identifies the localization transitions, mobility edges, and many-body quantum phase transitions, respectively. We further show that this strategy is robust against the finite-size effect and different boundary conditions.
翻訳日:2024-05-02 17:35:46 公開日:2024-05-01
# ブロックチェーンProof-of-Workプロトコルの有効計算によるクリプトプラグのリプレースについて

On Replacing Cryptopuzzles with Useful Computation in Blockchain Proof-of-Work Protocols ( http://arxiv.org/abs/2404.15735v3 )

ライセンス: Link先を確認
Andrea Merlina, Thiago Garrett, Roman Vitenberg, (参考訳) Proof-of-Work(PoW)ブロックチェーンは、インターネットのようなオープンな環境において、堅牢で効果的なコンセンサスメカニズムとして登場し、多数の暗号通貨プラットフォームへの展開と相当な投資につながっている。 しかし、現在のPoW実装は、主に勝利したnonceの発見を検証することに焦点を当てている。 ブロックチェーンネットワークの相当な計算能力と、より持続可能なITインフラストラクチャのグローバルな追求を考えれば、暗号パズルを有用な計算タスクに置き換えるという考えは魅力的だ。 本研究は,既存の文献から提案された課題の代替クラスに対する前提条件を包括的に分析し,これらの要件を考慮し検討する。 我々は,従来のPoWを超えるコンセンサスメカニズムの進化に関する貴重な洞察を提供するとともに,現在の最先端技術における関連する技術と対処ギャップを蒸留する。

Proof-of-Work (PoW) blockchains have emerged as a robust and effective consensus mechanism in open environments like the Internet, leading to widespread deployment with numerous cryptocurrency platforms and substantial investments. However, the current PoW implementation primarily focuses on validating the discovery of a winning nonce. Exploring the notion of replacing cryptographic puzzles with useful computing tasks becomes compelling, given the substantial computational capacity of blockchain networks and the global pursuit of a more sustainable IT infrastructure. In this study, we conduct a comprehensive analysis of the prerequisites for alternative classes of tasks, examining proposed designs from existing literature in light of these requirements. We distill pertinent techniques and address gaps in the current state-of-the-art, providing valuable insights into the evolution of consensus mechanisms beyond traditional PoW.
翻訳日:2024-05-02 17:35:46 公開日:2024-05-01
# MotionMaster:ビデオ生成のためのトレーニング不要カメラモーション転送

MotionMaster: Training-free Camera Motion Transfer For Video Generation ( http://arxiv.org/abs/2404.15789v2 )

ライセンス: Link先を確認
Teng Hu, Jiangning Zhang, Ran Yi, Yating Wang, Hongrui Huang, Jieyu Weng, Yabiao Wang, Lizhuang Ma, (参考訳) 拡散モデルの出現は、画像およびビデオ生成の進歩を大いに促進した。 近年,テキスト・トゥ・ビデオ・ジェネレーションやビデオ・モーション・コントロールなど,カメラ・モーション・コントロールが重要な話題となっているコントロール可能なビデオ・ジェネレーションへの取り組みが進められている。 しかし、既存のカメラモーションコントロール手法は、時間カメラモジュールのトレーニングに頼っており、ビデオ生成モデルにおける大量のパラメータのため、かなりの計算資源を必要とする。 さらに、トレーニング中にカメラのモーションタイプを事前に定義する既存の手法では、カメラ制御の柔軟性が制限されている。 そこで,トレーニングコストを低減し,フレキシブルなカメラ制御を実現するために,ソースビデオ中のカメラの動きとオブジェクトの動きをアンハングリングし,抽出したカメラの動きを新しいビデオに転送する,新しいトレーニングフリー動画移動モデルであるCOMDを提案する。 まず,背景から移動物体を分離し,ポアソン方程式を解くことにより,背景の動きに基づいて移動物体領域におけるカメラの動きを推定する。 さらに,複数のビデオの時間的注目マップに共通する特徴を抽出するために,ウィンドウベースのクラスタリング手法を用いて,類似のカメラモーションを用いた複数のビデオから共通カメラモーションを抽出する,数発のカメラモーション・アンタングル法を提案する。 最後に、異なる種類のカメラの動きを組み合わせ、より制御しやすくフレキシブルなカメラ制御を可能にするモーション組み合わせ法を提案する。 広汎な実験により、我々のトレーニング不要なアプローチは、カメラオブジェクトの動きを効果的に分離し、分離されたカメラモーションを幅広い制御可能なビデオ生成タスクに適用し、フレキシブルで多様なカメラモーション制御を実現することができることを示した。

The emergence of diffusion models has greatly propelled the progress in image and video generation. Recently, some efforts have been made in controllable video generation, including text-to-video generation and video motion control, among which camera motion control is an important topic. However, existing camera motion control methods rely on training a temporal camera module, and necessitate substantial computation resources due to the large amount of parameters in video generation models. Moreover, existing methods pre-define camera motion types during training, which limits their flexibility in camera control. Therefore, to reduce training costs and achieve flexible camera control, we propose COMD, a novel training-free video motion transfer model, which disentangles camera motions and object motions in source videos and transfers the extracted camera motions to new videos. We first propose a one-shot camera motion disentanglement method to extract camera motion from a single source video, which separates the moving objects from the background and estimates the camera motion in the moving objects region based on the motion in the background by solving a Poisson equation. Furthermore, we propose a few-shot camera motion disentanglement method to extract the common camera motion from multiple videos with similar camera motions, which employs a window-based clustering technique to extract the common features in temporal attention maps of multiple videos. Finally, we propose a motion combination method to combine different types of camera motions together, enabling our model a more controllable and flexible camera control. Extensive experiments demonstrate that our training-free approach can effectively decouple camera-object motion and apply the decoupled camera motion to a wide range of controllable video generation tasks, achieving flexible and diverse camera motion control.
翻訳日:2024-05-02 17:35:46 公開日:2024-05-01
# ASAM: 逆調整によるセグメントの任意のモデルの強化

ASAM: Boosting Segment Anything Model with Adversarial Tuning ( http://arxiv.org/abs/2405.00256v1 )

ライセンス: Link先を確認
Bo Li, Haoke Xiao, Lv Tang, (参考訳) コンピュータビジョンの進化する状況において、基礎モデルは重要なツールとして現れ、無数のタスクに例外的な適応性を示す。 これらのうち、Meta AIによるSegment Anything Model(SAM)は、イメージセグメンテーションにおいて際立った存在である。 しかし、SAMは特定のニッチアプリケーションで制限に直面しており、固有の能力を損なわない拡張戦略を模索している。 本稿では,ASAMを紹介する。ASAMは,ASAMの性能を逆調整によって増幅する新しい手法である。 我々は,自然言語処理における実装の成功に触発された,自然対逆例の可能性を生かした。 安定拡散モデルを用いることで、SA-1Bデータセットのサブセット(1%)を増大させ、従来の知覚不可能な摂動よりも自然変動を表わす逆のインスタンスを生成する。 提案手法は, 対向例のフォトリアリズムを維持し, 元のマスクアノテーションとの整合性を確保し, セグメンテーションタスクの整合性を維持する。 微調整されたASAMは、追加のデータやアーキテクチャの変更を必要とせずに、多様なセグメンテーションタスクで大幅に改善されている。 広範囲な評価の結果、ASAMはセグメンテーションタスクにおいて新しいベンチマークを確立しており、コンピュータビジョンにおける基礎モデルの発展に寄与していることが明らかとなった。 私たちのプロジェクトページはhttps://asam2024.github.io/です。

In the evolving landscape of computer vision, foundation models have emerged as pivotal tools, exhibiting exceptional adaptability to a myriad of tasks. Among these, the Segment Anything Model (SAM) by Meta AI has distinguished itself in image segmentation. However, SAM, like its counterparts, encounters limitations in specific niche applications, prompting a quest for enhancement strategies that do not compromise its inherent capabilities. This paper introduces ASAM, a novel methodology that amplifies SAM's performance through adversarial tuning. We harness the potential of natural adversarial examples, inspired by their successful implementation in natural language processing. By utilizing a stable diffusion model, we augment a subset (1%) of the SA-1B dataset, generating adversarial instances that are more representative of natural variations rather than conventional imperceptible perturbations. Our approach maintains the photorealism of adversarial examples and ensures alignment with original mask annotations, thereby preserving the integrity of the segmentation task. The fine-tuned ASAM demonstrates significant improvements across a diverse range of segmentation tasks without necessitating additional data or architectural modifications. The results of our extensive evaluations confirm that ASAM establishes new benchmarks in segmentation tasks, thereby contributing to the advancement of foundational models in computer vision. Our project page is in https://asam2024.github.io/.
翻訳日:2024-05-02 16:47:02 公開日:2024-05-01
# CREPE: コーディネート対応のエンドツーエンドドキュメントパーザ

CREPE: Coordinate-Aware End-to-End Document Parser ( http://arxiv.org/abs/2405.00260v1 )

ライセンス: Link先を確認
Yamato Okamoto, Youngmin Baek, Geewook Kim, Ryota Nakao, DongHyun Kim, Moon Bin Yim, Seunghyun Park, Bado Lee, (参考訳) 本研究では,視覚文書理解(VDU)のためのOCRフリーシーケンス生成モデルを定式化する。 本モデルは,文書画像からテキストを解析するだけでなく,マルチヘッドアーキテクチャに基づくテキストの空間座標も抽出する。 コーディネート・アウェア・エンド・ツー・エンド・ドキュメント・パーサ (CREPE) と呼ばれるこの手法は,OCRテキスト用の特別なトークンを導入し,トークントリガーによる座標デコーディングを導入することによって,これらの機能を一意に統合する。 また、コスト効率向上のための弱教師付きフレームワークを提案し、高コストの座標アノテーションを使わずにアノテーションを解析する必要があった。 文書解析タスクにおけるCREPEの最先端性能を実験的に評価した。 さらに、CREPEの適応性は、レイアウト分析、文書の視覚的質問応答など、他の文書理解タスクでの成功によってさらに強調される。 OCRや意味解析などのCREPEの能力は、既存のOCR依存手法におけるエラー伝播問題を緩和するだけでなく、シーケンス生成モデルの機能を著しく向上させ、文書理解研究の新しい時代へと導いた。

In this study, we formulate an OCR-free sequence generation model for visual document understanding (VDU). Our model not only parses text from document images but also extracts the spatial coordinates of the text based on the multi-head architecture. Named as Coordinate-aware End-to-end Document Parser (CREPE), our method uniquely integrates these capabilities by introducing a special token for OCR text, and token-triggered coordinate decoding. We also proposed a weakly-supervised framework for cost-efficient training, requiring only parsing annotations without high-cost coordinate annotations. Our experimental evaluations demonstrate CREPE's state-of-the-art performances on document parsing tasks. Beyond that, CREPE's adaptability is further highlighted by its successful usage in other document understanding tasks such as layout analysis, document visual question answering, and so one. CREPE's abilities including OCR and semantic parsing not only mitigate error propagation issues in existing OCR-dependent methods, it also significantly enhance the functionality of sequence generation models, ushering in a new era for document understanding studies.
翻訳日:2024-05-02 16:47:02 公開日:2024-05-01
# Clover: シーケンシャルな知識を備えた回帰軽量投機的デコーディング

Clover: Regressive Lightweight Speculative Decoding with Sequential Knowledge ( http://arxiv.org/abs/2405.00263v1 )

ライセンス: Link先を確認
Bin Xiao, Chunan Shi, Xiaonan Nie, Fan Yang, Xiangwei Deng, Lei Su, Weipeng Chen, Bin Cui, (参考訳) 大規模言語モデル(LLM)は、自動回帰復号法と現代のほとんどのGPUの設計のミスマッチとして、低効率に悩まされている。 具体的には、数億から数兆のパラメータが、計算のために限られたメモリ帯域を通してGPUキャッシュにロードされなければならないが、実際に計算されるトークンはわずかである。 その結果、GPUは計算ではなく、ほとんどの時間をメモリ転送に費やしている。 近年,投機的復号法の一種である並列復号法が普及し,生成効率が著しく向上している。 大規模なモデルに余分なデコードヘッドを導入し、複数のトークンを同時に予測し、これら候補の継続を単一のデコードステップで検証できるようにする。 しかし,本手法は,事前学習時に使用する次のトークン予測の学習目標から逸脱し,候補トークンのヒット率を低くする。 本稿では,並列復号処理に逐次的知識を統合する新しい投機的復号アルゴリズムであるCloverを提案する。 この強化により、投機器のヒット率が向上し、全体的な効率が向上する。 CloverはRegressive Connectionを通じて事前に規定されたトークンからシーケンシャルな知識を送信し、その後、アテンションデコーダを使用してこれらの推測されたトークンを統合する。 さらにCloverにはAugmenting Blockが組み込まれており、隠れた状態を修正して、次のトークン予測よりも投機生成の目的に適合するようにしている。 実験の結果,クロバーはバイチュアン・スモールでは91%,バイチュアン・ラージュでは146%,バイチュアン・スモールでは37%,バイチュアン・ラージュでは57%であった。

Large language models (LLMs) suffer from low efficiency as the mismatch between the requirement of auto-regressive decoding and the design of most contemporary GPUs. Specifically, billions to trillions of parameters must be loaded to the GPU cache through its limited memory bandwidth for computation, but only a small batch of tokens is actually computed. Consequently, the GPU spends most of its time on memory transfer instead of computation. Recently, parallel decoding, a type of speculative decoding algorithms, is becoming more popular and has demonstrated impressive efficiency improvement in generation. It introduces extra decoding heads to large models, enabling them to predict multiple subsequent tokens simultaneously and verify these candidate continuations in a single decoding step. However, this approach deviates from the training objective of next token prediction used during pre-training, resulting in a low hit rate for candidate tokens. In this paper, we propose a new speculative decoding algorithm, Clover, which integrates sequential knowledge into the parallel decoding process. This enhancement improves the hit rate of speculators and thus boosts the overall efficiency. Clover transmits the sequential knowledge from pre-speculated tokens via the Regressive Connection, then employs an Attention Decoder to integrate these speculated tokens. Additionally, Clover incorporates an Augmenting Block that modifies the hidden states to better align with the purpose of speculative generation rather than next token prediction. The experiment results demonstrate that Clover outperforms the baseline by up to 91% on Baichuan-Small and 146% on Baichuan-Large, respectively, and exceeds the performance of the previously top-performing method, Medusa, by up to 37% on Baichuan-Small and 57% on Baichuan-Large, respectively.
翻訳日:2024-05-02 16:47:02 公開日:2024-05-01
# 植生から分離した森林の分類にテクスチャーを用いる

Using Texture to Classify Forests Separately from Vegetation ( http://arxiv.org/abs/2405.00264v1 )

ライセンス: Link先を確認
David R. Treadwell IV, Derek Jacoby, Will Parkinson, Bruce Maxwell, Yvonne Coady, (参考訳) 衛星画像データ内の地形を特定することは、地理情報科学において重要な問題であり、環境や安全性に多くの影響を及ぼす。 衛星が捉えたスペクトルデータから分類を導き出す多くの技術が存在する。 しかし、植物を確実に分類する能力は依然として課題である。 特に、高レベルの衛星画像において森林と非森林の植生を分類するための正確な方法は存在しない。 本稿では,検出エッジから生成されたテクスチャ特徴と,Sentinel-2衛星画像から得られたNDVI比を用いて,衛星画像データの森林領域を静的に同定する手法を提案する。 そこで本研究では,分類および検証プロセスの精度向上のための次のステップについて述べる。

Identifying terrain within satellite image data is a key issue in geographical information sciences, with numerous environmental and safety implications. Many techniques exist to derive classifications from spectral data captured by satellites. However, the ability to reliably classify vegetation remains a challenge. In particular, no precise methods exist for classifying forest vs. non-forest vegetation in high-level satellite images. This paper provides an initial proposal for a static, algorithmic process to identify forest regions in satellite image data through texture features created from detected edges and the NDVI ratio captured by Sentinel-2 satellite images. With strong initial results, this paper also identifies the next steps to improve the accuracy of the classification and verification processes.
翻訳日:2024-05-02 16:47:02 公開日:2024-05-01
# イスラエルの生誕の国家登録簿を個人公開

Differentially Private Release of Israel's National Registry of Live Births ( http://arxiv.org/abs/2405.00267v1 )

ライセンス: Link先を確認
Shlomi Hod, Ran Canetti, (参考訳) 2024年2月、イスラエル保健省は2014年にイスラエルで生誕のマイクロデータを公表した。 このデータセットはイスラエルの生誕の国家登録簿に基づいており、科学研究や政策立案など、複数の分野でかなりの価値を提供している。 同時に、データは2014年の母親と新生児のプライバシーを守るために処理された。 このリリースは、著者たちと、内外の利害関係者によって共同設計された。 本稿では,そのリリースに必要な方法論について述べる。 また、方法論の選択に関わる考慮事項と、それに続くプロセスについても説明している。 私たちは、差分プライバシーを、リリースデータセットによって引き起こされたプライバシー損失の正式な尺度として使用しました。 より具体的には、リリースされたデータセットは、プライバシ損失予算が9.98である、差分プライベートであることが証明されている。 我々は、LiuとTalwar(STOC 2019)のプライベートセレクションアルゴリズムを広範囲に使用し、データ変換、モデル生成アルゴリズム、ハイパーパラメータ選択、評価などの複数のステップをまとめました。 選択したモデル生成アルゴリズムはPrivBayes (Zhang et al , SIGMOD 2014)である。 評価は受理基準のリストに基づいており、これはまた、全体的な差分プライバシー保証を提供するために、ほぼ開示されただけである。 我々はまた、このパイロットプロジェクトの次のステップと将来の異なるプライベートリリースに関連する、具体的な課題と障壁についても論じます。

In February 2024, Israel's Ministry of Health released microdata of live births in Israel in 2014. The dataset is based on Israel's National Registry of Live Births and offers substantial value in multiple areas, such as scientific research and policy-making. At the same time, the data was processed so as to protect the privacy of 2014's mothers and newborns. The release was co-designed by the authors together with stakeholders from both inside and outside the Ministry of Health. This paper presents the methodology used to obtain that release. It also describes the considerations involved in choosing the methodology and the process followed. We used differential privacy as our formal measure of the privacy loss incurred by the released dataset. More concretely, we prove that the released dataset is differentially private with privacy loss budget \varepsilon = 9.98. We extensively used the private selection algorithm of Liu and Talwar (STOC 2019) to bundle together multiple steps such as data transformation, model generation algorithm, hyperparameter selection, and evaluation. The model generation algorithm selected was PrivBayes (Zhang et al., SIGMOD 2014). The evaluation was based on a list of acceptance criteria, which were also disclosed only approximately so as to provide an overall differential privacy guarantee. We also discuss concrete challenges and barriers that appear relevant to the next steps of this pilot project, as well as to future differentially private releases.
翻訳日:2024-05-02 16:47:02 公開日:2024-05-01
# 可変変異をもつランダムキー遺伝的アルゴリズムによる車両経路問題の解法

A biased random-key genetic algorithm with variable mutants to solve a vehicle routing problem ( http://arxiv.org/abs/2405.00268v1 )

ライセンス: Link先を確認
Paola Festa, Francesca Guerriero, Mauricio G. C. Resende, Edoardo Scalzo, (参考訳) 本稿では、ロジスティクスと車両ルーティングの分野におけるバイアスランダム鍵遺伝的アルゴリズム(BRKGA)について検討する。 具体的には、現代の配送システムにおいて重要な課題である、Occasional Drivers and Time Window (VRPODTW) による車両ルーティング問題(Vine Routing Problem)の枠組み内で、アルゴリズムの適用がコンテキスト化される。 このような状況下では、BRKGAはルーティング計画を最適化し、コスト効率と運用上の制約のバランスをとる革新的なソリューションとして現れます。 本研究は、BRKGA-VMと呼ばれる、世代によって異なる変異集団を特徴とする新しいBRKGAを紹介する。 この新しい変種はVRPODTWを解くためにテストされた。 この目的のために、革新的な特定のデコーダ手順が提案され、実装された。 さらに,VNDアルゴリズムによるアルゴリズムのハイブリダイゼーションも検討され,問題解決能力の向上が示されている。 計算結果から,従来のBRKGAのMPよりも高い性能を示した。 BRKGA-VMの性能改善は、さまざまなシナリオでソリューションを最適化する能力から明らかであり、インスタンスの種類ごとに大幅に改善されている。 解析の結果,ミュータント集団の多様性が増大し,解空間の新たな領域の探索が容易になったため,VMはMPよりも早くプリセット目標を達成することが明らかとなった。 さらに、VNDの統合は、見つかったソリューションの品質にプラスの影響を与えることを示した。

The paper explores the Biased Random-Key Genetic Algorithm (BRKGA) in the domain of logistics and vehicle routing. Specifically, the application of the algorithm is contextualized within the framework of the Vehicle Routing Problem with Occasional Drivers and Time Window (VRPODTW) that represents a critical challenge in contemporary delivery systems. Within this context, BRKGA emerges as an innovative solution approach to optimize routing plans, balancing cost-efficiency with operational constraints. This research introduces a new BRKGA, characterized by a variable mutant population which can vary from generation to generation, named BRKGA-VM. This novel variant was tested to solve a VRPODTW. For this purpose, an innovative specific decoder procedure was proposed and implemented. Furthermore, a hybridization of the algorithm with a Variable Neighborhood Descent (VND) algorithm has also been considered, showing an improvement of problem-solving capabilities. Computational results show a better performances in term of effectiveness over a previous version of BRKGA, denoted as MP. The improved performance of BRKGA-VM is evident from its ability to optimize solutions across a wide range of scenarios, with significant improvements observed for each type of instance considered. The analysis also reveals that VM achieves preset goals more quickly compared to MP, thanks to the increased variability induced in the mutant population which facilitates the exploration of new regions of the solution space. Furthermore, the integration of VND has shown an additional positive impact on the quality of the solutions found.
翻訳日:2024-05-02 16:47:02 公開日:2024-05-01
# 非認知的スキル学習のための社会生活シミュレーション

Social Life Simulation for Non-Cognitive Skills Learning ( http://arxiv.org/abs/2405.00273v1 )

ライセンス: Link先を確認
Zihan Yan, Yaohong Xiang, Yun Huang, (参考訳) 非認知的スキルは、個人的および社会的生活の幸福のために不可欠であり、そのようなスキル開発は物語に基づく技術(例えば、ストーリーテリング)によって支えられる。 生成型AIはインタラクティブでロールプレイングなストーリーテリングを可能にするが、非認知的スキル学習のための社会生活シミュレーションにおいてAIをどのように利用しているかは、ほとんど分かっていない。 そこで我々は,大規模言語モデル(LLM)によって実現された対話型プラットフォームであるSimuLife++を紹介した。 このシステムでは、ユーザーは主人公として行動し、1つまたは複数のAIベースのキャラクターをさまざまな社会的シナリオで作り出すことができる。 特に,人間とAIのインタラクションを人間-AI-AIのコラボレーションに拡張した。 本研究により,サゲエージェントの内包は物語伝達の規模に応じて物語の没入を著しく向上させ,特にグループチャットにおけるメッセージの増加につながった。 参加者とセージエージェントとの相互作用は、動機づけ、自己知覚、レジリエンスと対処において有意に高いスコアに関連付けられ、非認知的スキルの反映に肯定的な影響が示唆された。 参加者の面接結果は, 意思決定, 倫理的ジレンマの解決, 問題解決におけるサージエージェントの助力についてさらに説明し, また, ユーザコントロールの改善, 複数文字からのバランスの取れた応答についても示唆した。 我々は、より広い社会的文脈における非認知的スキル開発のための物語解法における生成的AIの適用に関する設計上の意味を提供する。

Non-cognitive skills are crucial for personal and social life well-being, and such skill development can be supported by narrative-based (e.g., storytelling) technologies. While generative AI enables interactive and role-playing storytelling, little is known about how users engage with and perceive the use of AI in social life simulation for non-cognitive skills learning. To this end, we introduced SimuLife++, an interactive platform enabled by a large language model (LLM). The system allows users to act as protagonists, creating stories with one or multiple AI-based characters in diverse social scenarios. In particular, we expanded the Human-AI interaction to a Human-AI-AI collaboration by including a sage agent, who acts as a bystander to provide users with more insightful perspectives on their choices and conversations. Through a within-subject user study, we found that the inclusion of the sage agent significantly enhanced narrative immersion, according to the narrative transportation scale, leading to more messages, particularly in group chats. Participants' interactions with the sage agent were also associated with significantly higher scores in their perceived motivation, self-perceptions, and resilience and coping, indicating positive impacts on non-cognitive skills reflection. Participants' interview results further explained the sage agent's aid in decision-making, solving ethical dilemmas, and problem-solving; on the other hand, they suggested improvements in user control and balanced responses from multiple characters. We provide design implications on the application of generative AI in narrative solutions for non-cognitive skill development in broader social contexts.
翻訳日:2024-05-02 16:47:02 公開日:2024-05-01
# 還元密度行列の正確な解に基づく量子ブラウン運動の強結合量子熱力学

The strong-coupling quantum thermodynamics of quantum Brownian motion based on the exact solution of its reduced density matrix ( http://arxiv.org/abs/2405.00277v1 )

ライセンス: Link先を確認
Chuan-Zhe Yao, Wei-Min Zhang, (参考訳) 我々は、その還元密度行列の正確な解から、量子ブラウン運動の量子熱力学を導出する。 すべての貯水池状態を正確に追跡することにより、ブラウン粒子の密度行列を、その貯水池と強く絡み合う系の全平衡熱状態から、解析的に、正確に解くことができる。 私たちが最近開発した量子熱力学の非摂動的再正規化理論で一般的に示されるように、還元ハミルトン関数とブラウン粒子の分解関数は著しく再正規化されなければならない。 ブラウン粒子と貯水池粒子の線形結合から運動量依存電位が自然に生成され、すべての貯水池状態が完全に追跡される。 さらに, 弱結合限界を超えて, 系-貯留層結合によって誘導される貯水池状態の非無視的変化を考慮に入れ, ブラウン粒子の正確な分配関数を得る必要がある。 還元密度行列、再正規化ハミルトニアン、ブラウン粒子の分解関数の正確な解を用いて、強結合量子熱力学の以前の研究における内部エネルギーの異なる定義と負の熱容量の問題による議論の結果が解決されたことを示す。

We derive the quantum thermodynamics of quantum Brownian motion from the exact solution of its reduced density matrix. By exactly traced over all the reservoir states, we solve analytically and exactly the reduced density matrix of the Brownian particle from the total equilibrium thermal state of the system strongly entangling with its reservoir. We find that the reduced Hamiltonian and the reduced partition function of the Brownian particle must be renormalized significantly, as be generally shown in the nonperturbative renormalization theory of quantum thermodynamics we developed recently. A momentum-dependent potential is generated naturally from the linear coupling between the Brownian particle and the reservoir particles, after all the reservoir states are completely traced out. Moreover, beyond the weak coupling limit, it is imperative to take into account the non-negligible changes of the reservoir state induced by the system-reservoir coupling, in order to obtain the correctly reduced partition function of the Brownian particle. Using the exact solutions of the reduced density matrix, the renormalized Hamiltonian and the reduced partition function for the Brownian particle, we show that the controversial results from the different definitions of internal energy and the issue of the negative heat capacity in the previous studies of strong-coupling quantum thermodynamics are resolved.
翻訳日:2024-05-02 16:47:02 公開日:2024-05-01
# 新型コロナウイルスパンデミック開始時のニュースの同期と多様性

Global News Synchrony and Diversity During the Start of the COVID-19 Pandemic ( http://arxiv.org/abs/2405.00280v1 )

ライセンス: Link先を確認
Xi Chen, Scott A. Hale, David Jurgens, Mattia Samory, Ethan Zuckerman, Przemyslaw A. Grabowicz, (参考訳) ニュースの報道は、国や個人が国際関係においてどのように振る舞うかに大きな影響を与える。 しかし、ニュース報道が各国でどのように異なるかという実証的な証拠はほとんどない。 グローバルニュース報道の研究を可能にするために,3つの要素からなる効率的な計算手法を開発した。 (i)多言語ニュース類似性を推定するトランスフォーマーモデル (二 ニュース記事の類似性ネットワークに基づいてニュースを集約するグローバルイベント識別システム 三 国内におけるニュースの同調の度合い及びニュースの多様性の度合いは、国際イベントのニュース報道の国別分布に基づく。 各コンポーネントは最先端のパフォーマンスを達成し、数百万のニュース記事の巨大なデータセットにシームレスにスケールする。 本手法は,2020年1月1日から6月30日にかけて,124カ国と10言語を対象に,全世界で6千万件のニュース記事に応用し,4357件のニュースイベントを検出する。 各国のニュース報道の多様性と同期性を説明する要因を同定する。 我々の研究は、インターネットの普及、公用語の拡大、宗教の多様性の拡大、経済的不平等の増大、人口の増大など、メディアがより多様な出来事をカバーしていることを示している。 ニュースイベントの報道は、二国間貿易量が多い国や、NATO軍事同盟や主要新興国BRICSグループに属する国など、商業・政治関係に積極的に参加する国と、公的言語、高いGDP、高い民主主義の指標といった特定の特徴を共有する国の間で、より同期している。

News coverage profoundly affects how countries and individuals behave in international relations. Yet, we have little empirical evidence of how news coverage varies across countries. To enable studies of global news coverage, we develop an efficient computational methodology that comprises three components: (i) a transformer model to estimate multilingual news similarity; (ii) a global event identification system that clusters news based on a similarity network of news articles; and (iii) measures of news synchrony across countries and news diversity within a country, based on country-specific distributions of news coverage of the global events. Each component achieves state-of-the art performance, scaling seamlessly to massive datasets of millions of news articles. We apply the methodology to 60 million news articles published globally between January 1 and June 30, 2020, across 124 countries and 10 languages, detecting 4357 news events. We identify the factors explaining diversity and synchrony of news coverage across countries. Our study reveals that news media tend to cover a more diverse set of events in countries with larger Internet penetration, more official languages, larger religious diversity, higher economic inequality, and larger populations. Coverage of news events is more synchronized between countries that not only actively participate in commercial and political relations -- such as, pairs of countries with high bilateral trade volume, and countries that belong to the NATO military alliance or BRICS group of major emerging economies -- but also countries that share certain traits: an official language, high GDP, and high democracy indices.
翻訳日:2024-05-02 16:47:02 公開日:2024-05-01
# MF-OML:大規模ゲームにおける作業対策によるオンライン平均場強化学習

MF-OML: Online Mean-Field Reinforcement Learning with Occupation Measures for Large Population Games ( http://arxiv.org/abs/2405.00282v1 )

ライセンス: Link先を確認
Anran Hu, Junzi Zhang, (参考訳) マルチエージェントゲームのための強化学習は、最近多くの注目を集めている。 しかし、大集団ゲームに対するナッシュ均衡の解決という課題を考えると、保証された多項式複素量を持つ既存の研究はゼロサムゲームとポテンシャルゲームの変種に焦点を当てるか、あるいは(粗い)同値平衡を解くことを目指すか、シミュレータへのアクセスを必要とするか、検証が難しい特定の仮定に依存するかのいずれかである。 本研究は,大集団の逐次対称ゲームのナッシュ平衡を計算するオンライン平均場強化学習アルゴリズムであるMF-OML(Mean-Field Occupation-Measure Learning)を提案する。 MF-OMLは、ゼロサムゲームやポテンシャルゲームの変種を超えて、ナッシュ平衡(平均場近似ギャップまで)を証明的に解くための最初の完全多項式多重エージェント強化学習アルゴリズムである。 ナッシュ平衡からの累積偏差で評価すると、このアルゴリズムは、強いラズリー・リオンの単調条件を持つゲームに対して$\tilde{O}(M^{3/4}+N^{-1/2}M)$と、ラズリー・リオンの単調条件のみを持つゲームに対して$\tilde{O}(M^{11/12}+N^{-1/6}M)$のリットバウンドを達成し、そこでは$M$はエピソードの総数であり、$N$はゲームのエージェント数である。 副生成物として、単調平均場ゲームのNash平衡を近似的に計算するための、最初のトラクタブル大域収束計算アルゴリズムを得る。

Reinforcement learning for multi-agent games has attracted lots of attention recently. However, given the challenge of solving Nash equilibria for large population games, existing works with guaranteed polynomial complexities either focus on variants of zero-sum and potential games, or aim at solving (coarse) correlated equilibria, or require access to simulators, or rely on certain assumptions that are hard to verify. This work proposes MF-OML (Mean-Field Occupation-Measure Learning), an online mean-field reinforcement learning algorithm for computing approximate Nash equilibria of large population sequential symmetric games. MF-OML is the first fully polynomial multi-agent reinforcement learning algorithm for provably solving Nash equilibria (up to mean-field approximation gaps that vanish as the number of players $N$ goes to infinity) beyond variants of zero-sum and potential games. When evaluated by the cumulative deviation from Nash equilibria, the algorithm is shown to achieve a high probability regret bound of $\tilde{O}(M^{3/4}+N^{-1/2}M)$ for games with the strong Lasry-Lions monotonicity condition, and a regret bound of $\tilde{O}(M^{11/12}+N^{- 1/6}M)$ for games with only the Lasry-Lions monotonicity condition, where $M$ is the total number of episodes and $N$ is the number of agents of the game. As a byproduct, we also obtain the first tractable globally convergent computational algorithm for computing approximate Nash equilibria of monotone mean-field games.
翻訳日:2024-05-02 16:37:17 公開日:2024-05-01
# iMTSP: インペラティブ学習による最小限のマルチトラベリングセールスマン問題の解決

iMTSP: Solving Min-Max Multiple Traveling Salesman Problem with Imperative Learning ( http://arxiv.org/abs/2405.00285v1 )

ライセンス: Link先を確認
Yifan Guo, Zhongqiang Ren, Chen Wang, (参考訳) 本稿では,各エージェントが各都市を総括して訪問し,最長ツアーの長さを最小化することを目的とした,MTSP(Min-Max Multiple Traveling Salesman Problem)について考察する。 MTSPは広く研究されているが、NP硬度のため、大規模問題に対する準最適解を得ることは依然として困難である。 データ駆動手法の最近の取り組みは、厳密な監督の必要性と勾配推定のばらつきに直面する問題に直面する。 本稿では,インペラティブラーニング(IL)の概念を用いて,MTSPを二段階最適化問題として再定義することでこの問題に対処する。 これには、MTSPを複数の単一エージェントの旅行セールスマン問題(TSP)に分解するアロケーションネットワークの導入が含まれる。 これらのTSPソリューションからの最長のツアーは、アロケーションネットワークを自己監督するために使用され、その結果、新しい自己監督型、双方向のエンドツーエンド学習フレームワークが生まれ、これは命令型MTSP(iMTSP)と呼ばれる。 また、最適化中の高分散勾配問題に対処するために、制御変数に基づく勾配推定アルゴリズムを導入する。 以上の結果から,Google OR-Tools MTSPソルバと比較して,勾配推定器が高度強化学習ベースラインよりも20%高速に収束し,ツアー長が最大80%短いことが示唆された。

This paper considers a Min-Max Multiple Traveling Salesman Problem (MTSP), where the goal is to find a set of tours, one for each agent, to collectively visit all the cities while minimizing the length of the longest tour. Though MTSP has been widely studied, obtaining near-optimal solutions for large-scale problems is still challenging due to its NP-hardness. Recent efforts in data-driven methods face challenges of the need for hard-to-obtain supervision and issues with high variance in gradient estimations, leading to slow convergence and highly suboptimal solutions. We address these issues by reformulating MTSP as a bilevel optimization problem, using the concept of imperative learning (IL). This involves introducing an allocation network that decomposes the MTSP into multiple single-agent traveling salesman problems (TSPs). The longest tour from these TSP solutions is then used to self-supervise the allocation network, resulting in a new self-supervised, bilevel, end-to-end learning framework, which we refer to as imperative MTSP (iMTSP). Additionally, to tackle the high-variance gradient issues during the optimization, we introduce a control variate-based gradient estimation algorithm. Our experiments showed that these innovative designs enable our gradient estimator to converge 20% faster than the advanced reinforcement learning baseline and find up to 80% shorter tour length compared with Google OR-Tools MTSP solver, especially in large-scale problems (e.g. 1000 cities and 15 agents).
翻訳日:2024-05-02 16:37:17 公開日:2024-05-01
# グラフベース協調フィルタリングにおけるコントラスト視点とハード負サンプルの確率サンプリング

Stochastic Sampling for Contrastive Views and Hard Negative Samples in Graph-based Collaborative Filtering ( http://arxiv.org/abs/2405.00287v1 )

ライセンス: Link先を確認
Chaejeong Lee, Jeongwhan Choi, Hyowon Wi, Sung-Bae Cho, Noseong Park, (参考訳) グラフベースの協調フィルタリング(CF)はレコメンデーションシステムにおいて有望なアプローチである。 その成果にもかかわらず、グラフベースのCFモデルは、データの分散性と負のサンプリングによる課題に直面している。 本稿では,新しい確率的サンプリング法を提案する。 一 虚偽の見解及び ii)これらの問題を克服するため、SCONE(ハードネガティブ・サンプル)。 それらが共にサンプリングタスクであると考え、スコアベース生成モデルに基づく統合確率的サンプリングフレームワークを用いて動的拡張ビューと多様なハードネガティブサンプルを生成する。 6つのベンチマークデータセットを用いた総合評価では、提案したSCONEは推奨精度とロバスト性を大幅に改善し、既存のCFモデルよりもアプローチの方が優れていることを示す。 さらに,ユーザ疎度とアイテム人気問題に対処するために,ユーザイテム特定確率的サンプリングの有効性を検証した。 確率的サンプリングとグラフベースのCFの統合により、パーソナライズされたレコメンデーションシステムにおける最先端の知識が得られ、情報豊富な環境において大きな進歩を遂げる。

Graph-based collaborative filtering (CF) has emerged as a promising approach in recommendation systems. Despite its achievements, graph-based CF models face challenges due to data sparsity and negative sampling. In this paper, we propose a novel Stochastic sampling for i) COntrastive views and ii) hard NEgative samples (SCONE) to overcome these issues. By considering that they are both sampling tasks, we generate dynamic augmented views and diverse hard negative samples via our unified stochastic sampling framework based on score-based generative models. In our comprehensive evaluations with 6 benchmark datasets, our proposed SCONE significantly improves recommendation accuracy and robustness, and demonstrates the superiority of our approach over existing CF models. Furthermore, we prove the efficacy of user-item specific stochastic sampling for addressing the user sparsity and item popularity issues. The integration of the stochastic sampling and graph-based CF obtains the state-of-the-art in personalized recommendation systems, making significant strides in information-rich environments.
翻訳日:2024-05-02 16:37:17 公開日:2024-05-01
# 会話包摂課題に対する敵の攻撃と防御

Adversarial Attacks and Defense for Conversation Entailment Task ( http://arxiv.org/abs/2405.00289v1 )

ライセンス: Link先を確認
Zhenning Yang, Ryan Krawec, Liang-Yuan Wu, (参考訳) 大規模言語モデル(LLM)は、異なるNLPタスクにおいて非常に強力であることが証明されている。 しかし、非常に低コストでモデルを攻撃するには、まだ多くの方法があります。 モデルを守る方法が重要な問題になります。 我々の研究では、敵の攻撃結果をモデルの新しい(目に見えない)ドメインとして扱い、新しいドメインにおけるモデルのロバスト性を改善する方法に防衛問題を組み込む。 本稿では,マルチターン自然言語対話が前提となる会話包摂作業に注目し,与えられた対話に関する仮説が真か偽かを予測するためにトランスフォーマーモデルを微調整する。 敵は仮説を攻撃し、モデルを騙して間違った予測をする。 攻撃手法として同義語スワッピングを適用した。 モデルのロバスト性を示すため、我々はいくつかの微調整戦略を実装し、モデルのロバスト性を改善する方法として埋め込み摂動損失を提案する。 最後に,実世界におけるNLPの敵対的攻撃について論じることによって,我々の研究の重要性を示す。

Large language models (LLMs) that are proved to be very powerful on different NLP tasks. However, there are still many ways to attack the model with very low costs. How to defend the model becomes an important problem. In our work, we treat adversarial attack results as a new (unseen) domain of the model, and we frame the defending problem into how to improve the robustness of the model on the new domain. We focus on the task of conversation entailment, where multi-turn natural language dialogues are the premise, and the transformer model is fine-tuned to predict whether a given hypothesis about the given dialogue is true or false. The adversary would attack the hypothesis to fool the model to make the wrong predictions. We apply synonym-swapping as the attack method. To show the robustness of the model, we implement some fine-tuning strategies and propose the embedding perturbation loss as a method to improve the robustness of the model. Finally, we show the importance of our work by discussing the adversarial attacks in NLP in the real world.
翻訳日:2024-05-02 16:37:17 公開日:2024-05-01
# どのようにして改善できるのか? GPTを用いたオープンエンド応答の望ましくない部分のハイライト

How Can I Improve? Using GPT to Highlight the Desired and Undesired Parts of Open-ended Responses ( http://arxiv.org/abs/2405.00291v1 )

ライセンス: Link先を確認
Jionghao Lin, Eason Chen, Zeifei Han, Ashish Gurung, Danielle R. Thomas, Wei Tan, Ngoc Dang Nguyen, Kenneth R. Koedinger, (参考訳) 説明文を組み込んだフィードバックを提供することにより,学習者の膨大なコホートを学習しやすくする上で,自動説明フィードバックシステムは重要な役割を担っている。 しかし、このような説明的フィードバックをリアルタイムで提供することは、特にドメイン固有のニュアンス応答に対する高い分類精度が不可欠である場合、課題となる。 本研究は,大規模言語モデル,特にGPT(Generative Pre-Trained Transformer)の機能を活用して,チュータトレーニングデータセット内で説明的フィードバックを提供する上で,望ましい,望ましくないコンポーネントを識別するシーケンスラベリングアプローチを提案する。 我々の目的は、オンライントレーニングの授業中に、教師に実用的な説明的フィードバックを付与することである。 説明的フィードバックを提供するためのGPTモデルの可能性を検討するために、我々は2つの一般的なアプローチ、即興と微調整を採用した。 GPTモデルにより同定された強調された賞賛成分の品質を定量化するため,M-IoU(Modified Intersection over Union)スコアを導入した。 その結果,(1) M-IoUスコアは, シーケンス品質評価において人的判断と相関し, (2) GPT-3.5上での2ショットプロンプトは, 作業ベース(M-IoU 0.46)と成果ベース評価(M-IoU 0.68)の認識において良好な成績を示した。 以上の結果から,GPTモデルを用いて,改善が望ましい,あるいは活用可能なオープンエンド応答の特定の要素に着目したフィードバックを提供する可能性が示唆された。

Automated explanatory feedback systems play a crucial role in facilitating learning for a large cohort of learners by offering feedback that incorporates explanations, significantly enhancing the learning process. However, delivering such explanatory feedback in real-time poses challenges, particularly when high classification accuracy for domain-specific, nuanced responses is essential. Our study leverages the capabilities of large language models, specifically Generative Pre-Trained Transformers (GPT), to explore a sequence labeling approach focused on identifying components of desired and less desired praise for providing explanatory feedback within a tutor training dataset. Our aim is to equip tutors with actionable, explanatory feedback during online training lessons. To investigate the potential of GPT models for providing the explanatory feedback, we employed two commonly-used approaches: prompting and fine-tuning. To quantify the quality of highlighted praise components identified by GPT models, we introduced a Modified Intersection over Union (M-IoU) score. Our findings demonstrate that: (1) the M-IoU score effectively correlates with human judgment in evaluating sequence quality; (2) using two-shot prompting on GPT-3.5 resulted in decent performance in recognizing effort-based (M-IoU of 0.46) and outcome-based praise (M-IoU of 0.68); and (3) our optimally fine-tuned GPT-3.5 model achieved M-IoU scores of 0.64 for effort-based praise and 0.84 for outcome-based praise, aligning with the satisfaction levels evaluated by human coders. Our results show promise for using GPT models to provide feedback that focuses on specific elements in their open-ended responses that are desirable or could use improvement.
翻訳日:2024-05-02 16:37:17 公開日:2024-05-01
# MoPEFT:セグメンテーションモデルのためのPEFTの混合

MoPEFT: A Mixture-of-PEFTs for the Segment Anything Model ( http://arxiv.org/abs/2405.00293v1 )

ライセンス: Link先を確認
Rajat Sahay, Andreas Savakis, (参考訳) Segment Anything Model (SAM)のような基盤モデルの出現は、これらの大きなモデルをトレーニングデータ以外のアプリケーションドメインに合わせるパラメータ効率の良いファインチューニング(PEFT)手法への関心を喚起した。 しかし、異なるPEFT手法は、モデルの表現を異なる方法で変更し、関心領域の最も適切な方法を選択することは、非自明なタスクである。 従来のMixture-of-PEFT(Mixture-of-Experts)手法にインスパイアされた新しいフレームワークであるMoPEFTを提案する。 我々のMoPEFTフレームワークは3つの異なるPEFT技法をサブモジュールとして組み込んでおり、与えられたデータタスク設定に適したものを動的に起動する。 我々は,Segment Anything Model を用いて提案手法を検証し,MoPEFT が MESS ベンチマークにおける他の微調整手法よりも一貫して優れていることを示す。

The emergence of foundation models, such as the Segment Anything Model (SAM), has sparked interest in Parameter-Efficient Fine-Tuning (PEFT) methods that tailor these large models to application domains outside their training data. However, different PEFT techniques modify the representation of a model differently, making it a non-trivial task to select the most appropriate method for the domain of interest. We propose a new framework, Mixture-of-PEFTs methods (MoPEFT), that is inspired by traditional Mixture-of-Experts (MoE) methodologies and is utilized for fine-tuning SAM. Our MoPEFT framework incorporates three different PEFT techniques as submodules and dynamically learns to activate the ones that are best suited for a given data-task setup. We test our method on the Segment Anything Model and show that MoPEFT consistently outperforms other fine-tuning methods on the MESS benchmark.
翻訳日:2024-05-02 16:37:17 公開日:2024-05-01
# Reversing Machine: メモリ消費の再構築

The Reversing Machine: Reconstructing Memory Assumptions ( http://arxiv.org/abs/2405.00298v1 )

ライセンス: Link先を確認
Mohammad Sina Karvandi, Soroush Meghdadizanjani, Sima Arasteh, Saleh Khalaj Monfared, Mohammad K. Fallah, Saeid Gorgin, Jeong-A Lee, Erik van der Kouwe, (参考訳) 既存のアンチマルウェアソフトウェアとリバースエンジニアリングツールキットは、ランタイムカーネルレベルの監視に制限があるため、ステルスなサブOSルートキットに悩まされている。 悪意のあるカーネルレベルのドライバは、OSレベルのアンチウイルスメカニズムを簡単にバイパスすることができる。 このようなマルウェアの静的解析は可能であるが、難読化とパッケージング技術はオフライン解析を複雑にする。 さらに、現在の動的アナライザは仮想化性能のオーバーヘッドに悩まされ、検出可能なトレースを生成して、現代のマルウェアがそれらを回避している。 これらの問題に対処するために,新しいハイパーバイザベースのメモリイントロスペクション設計である \textit{The Reversing Machine} (TRM) を提案する。 TRMは、ハイパーバイザベースのメモリイントロスペクションのために、停止プロセスを使用してバイナリをフックする、ユーザー/カーネルモード遷移とメモリアクセスパターンを検出するために、モードベース実行制御(MBEC)を利用する、という2つの新しい手法を提案する。 既存のマルウェア検出環境とは異なり、TRMはユーザとカーネル空間の完全なメモリトレースを抽出し、ターゲットメモリマップ全体をフックして配列、オペレーティングシステム内の構造、および可能なルートキットを再構築することができる。 我々は,TRMによるカーネルレベルのリバースエンジニアリングを行い,手動リバースエンジニアリングを平均75%高速化できることを示す。 我々は、既知のマルウェアを最新のパッキングツールと混同し、類似性検出に成功している。 さらに、最先端のセキュリティ監査ツールをバイパスするドライバに修正されたルートキットをデプロイすることで、現実世界の攻撃を実証する。 我々は、TRMがそれぞれの脅威を検知できることを示し、24の最先端のAVソリューションのうち、最も高度な脅威を検出できるのはTRMのみであることを示した。

Existing anti-malware software and reverse engineering toolkits struggle with stealthy sub-OS rootkits due to limitations of run-time kernel-level monitoring. A malicious kernel-level driver can bypass OS-level anti-virus mechanisms easily. Although static analysis of such malware is possible, obfuscation and packing techniques complicate offline analysis. Moreover, current dynamic analyzers suffer from virtualization performance overhead and create detectable traces that allow modern malware to evade them. To address these issues, we present \textit{The Reversing Machine} (TRM), a new hypervisor-based memory introspection design for reverse engineering, reconstructing memory offsets, and fingerprinting evasive and obfuscated user-level and kernel-level malware. TRM proposes two novel techniques that enable efficient and transparent analysis of evasive malware: hooking a binary using suspended process creation for hypervisor-based memory introspection, and leveraging Mode-Based Execution Control (MBEC) to detect user/kernel mode transitions and memory access patterns. Unlike existing malware detection environments, TRM can extract full memory traces in user and kernel spaces and hook the entire target memory map to reconstruct arrays, structures within the operating system, and possible rootkits. We perform TRM-assisted reverse engineering of kernel-level structures and show that it can speed up manual reverse engineering by 75\% on average. We obfuscate known malware with the latest packing tools and successfully perform similarity detection. Furthermore, we demonstrate a real-world attack by deploying a modified rootkit onto a driver that bypasses state-of-the-art security auditing tools. We show that TRM can detect each threat and that, out of 24 state-of-the-art AV solutions, only TRM can detect the most advanced threats.
翻訳日:2024-05-02 16:37:17 公開日:2024-05-01
# LITO:真さ最適化のための学習可能な介入

LITO: Learnable Intervention for Truthfulness Optimization ( http://arxiv.org/abs/2405.00301v1 )

ライセンス: Link先を確認
Farima Fatahi Bayat, Xin Liu, H. V. Jagadish, Lu Wang, (参考訳) 大きな言語モデル(LLM)は長文で一貫性のあるテキストを生成することができるが、事実を幻覚させることが多く、信頼性が制限される。 この問題に対処するために,LLM表現を学習した「真理方向」にシフトさせることにより,真理応答を誘発する推論時手法が提案されている。 しかし、同じ強度の真正方向を適用すると、異なる質問コンテキストにまたがって一般化することができない。 本稿では,特定の文脈に合わせて最適な介入強度を自動的に識別する,真理性最適化のための学習可能なインターベンション手法LITOを提案する。 LITOは、介入強度の増大に基づくモデル世代を探索する。 予測が極めて不確実な場合には、最も正確な応答を選択するか、答えを拒否する。 複数のLLMと質問応答データセットの実験は、LITOがタスク精度を維持しながら真理性を改善することを示した。 LITOの適応性は、モデルが自信を持つ場合にのみ内部知識を反映してモデル真理性を最大化する、一大の介入ベースソリューションの問題に対処する。

Large language models (LLMs) can generate long-form and coherent text, but they still frequently hallucinate facts, thus limiting their reliability. To address this issue, inference-time methods that elicit truthful responses have been proposed by shifting LLM representations towards learned "truthful directions". However, applying the truthful directions with the same intensity fails to generalize across different question contexts. We propose LITO, a Learnable Intervention method for Truthfulness Optimization that automatically identifies the optimal intervention intensity tailored to a specific context. LITO explores a sequence of model generations based on increasing levels of intervention intensities. It selects the most accurate response or refuses to answer when the predictions are highly uncertain. Experiments on multiple LLMs and question-answering datasets demonstrate that LITO improves truthfulness while preserving task accuracy. The adaptive nature of LITO counters issues with one-size-fits-all intervention-based solutions, maximizing model truthfulness by reflecting internal knowledge only when the model is confident.
翻訳日:2024-05-02 16:37:17 公開日:2024-05-01
# 大規模言語モデルを用いたプログラミングにおける論理エラーに対するフィードバックラダーの生成

Generating Feedback-Ladders for Logical Errors in Programming using Large Language Models ( http://arxiv.org/abs/2405.00302v1 )

ライセンス: Link先を確認
Hasnain Heickal, Andrew Lan, (参考訳) プログラム代入における論理的誤りに対するフィードバック生成において,大規模言語モデル(LLM)に基づく手法は大きな可能性を秘めている。 これらの方法は、問題ステートメントと学生の(バグ)提出を前提として、LSMにフィードバックを生成するよう要求する。 このような方法にはいくつかの問題がある。 第一に、生成されたフィードバックメッセージは、しばしば、提出中のエラーを明らかにするために直接的すぎるので、学生が学ぶ貴重な機会を減らします。 第二に、学生の学習の文脈、すなわち、以前の提出書、現在の知識などを考慮していない。 第3に、既存のメソッドでは、すべての学生の応募に対して単一の共有プロンプトを使用するため、レイヤ化されていない。 本稿では,LLMを用いて「フィードバック・ラダー」、すなわち同じ問題・サブミッション・ペアに対するフィードバックのレベルを複数生成する方法について検討する。 本研究では, 学生, 教育者, 研究者によるユーザスタディにより, 生成したフィードバックラダーの品質を評価する。 本研究は,高レベルのフィードバックと高レベルの提案に対する効果の低下を総合的に観察した。 実際に,本手法では,教師が個人的学習状況に基づいて,生徒に適切なレベルのフィードバックを提示するか,あるいは高レベルのフィードバックが生徒の誤りを訂正できなかった場合に,より詳細に学習することができる。

In feedback generation for logical errors in programming assignments, large language model (LLM)-based methods have shown great promise. These methods ask the LLM to generate feedback given the problem statement and a student's (buggy) submission. There are several issues with these types of methods. First, the generated feedback messages are often too direct in revealing the error in the submission and thus diminish valuable opportunities for the student to learn. Second, they do not consider the student's learning context, i.e., their previous submissions, current knowledge, etc. Third, they are not layered since existing methods use a single, shared prompt for all student submissions. In this paper, we explore using LLMs to generate a "feedback-ladder", i.e., multiple levels of feedback for the same problem-submission pair. We evaluate the quality of the generated feedback-ladder via a user study with students, educators, and researchers. We have observed diminishing effectiveness for higher-level feedback and higher-scoring submissions overall in the study. In practice, our method enables teachers to select an appropriate level of feedback to show to a student based on their personal learning context, or in a progressive manner to go more detailed if a higher-level feedback fails to correct the student's error.
翻訳日:2024-05-02 16:37:17 公開日:2024-05-01
# ピアスワイド線形アンサンブルの合同最適化

Joint Optimization of Piecewise Linear Ensembles ( http://arxiv.org/abs/2405.00303v1 )

ライセンス: Link先を確認
Matt Raymond, Angela Violi, Clayton Scott, (参考訳) ツリーアンサンブルは、厳格に最適化されているにもかかわらず、最先端のパフォーマンスを達成する。 グローバルリファインメント(GR)は、すべての常緑葉を共同で、かつ、グローバルに最適化することで、欲求性を低下させる。 本稿では,GR のピースワイズ線形拡張である Piecewise Linear ENsembles (JOPLEN) の組合せ最適化を提案する。 GRと比較すると、JOPLENはモデルの柔軟性を改善し、不規則な予測にスパーシティプロモーティング行列ノルムや部分空間ノルムなどの一般的な罰則を適用することができる。 我々はフロベニウス標準、$\ell_{2,1}$ノルム、146の回帰および分類データセットに対するラプラシアン正規化を評価する。 さらに、核ノルムのペナルティを持つJOPLENは、スムーズで部分空間整列関数を経験的に学習する。 最後に、Dirty LASSOを拡張してマルチタスク特徴選択を行う。 JOPLEN Dirty LASSOは、線形および勾配向上アプローチに対して優れた特徴空間/性能トレードオフを実現する。 我々はJOPLENが多くの分野における回帰、分類、特徴選択を改善することを期待する。

Tree ensembles achieve state-of-the-art performance despite being greedily optimized. Global refinement (GR) reduces greediness by jointly and globally optimizing all constant leaves. We propose Joint Optimization of Piecewise Linear ENsembles (JOPLEN), a piecewise-linear extension of GR. Compared to GR, JOPLEN improves model flexibility and can apply common penalties, including sparsity-promoting matrix norms and subspace-norms, to nonlinear prediction. We evaluate the Frobenius norm, $\ell_{2,1}$ norm, and Laplacian regularization for 146 regression and classification datasets; JOPLEN, combined with GB trees and RF, achieves superior performance in both settings. Additionally, JOPLEN with a nuclear norm penalty empirically learns smooth and subspace-aligned functions. Finally, we perform multitask feature selection by extending the Dirty LASSO. JOPLEN Dirty LASSO achieves a superior feature sparsity/performance tradeoff to linear and gradient boosted approaches. We anticipate that JOPLEN will improve regression, classification, and feature selection across many fields.
翻訳日:2024-05-02 16:37:17 公開日:2024-05-01
# QUICK:量子アライメントされたセントロイドカーネル

QUACK: Quantum Aligned Centroid Kernel ( http://arxiv.org/abs/2405.00304v1 )

ライセンス: Link先を確認
Kilian Tscharke, Sebastian Issel, Pascal Debus, (参考訳) 量子コンピューティング(QC)は機械学習(ML)の応用の可能性を示しているようだ。 特に量子カーネル法(QKM)は、教師付きMLタスクで使用するための有望な特性を示す。 しかし、カーネルメソッドの大きな欠点は、トレーニングサンプルの数とともに、その好ましくない2次スケーリングである。 現在利用可能な量子ハードウェア(NISQデバイス)が課している制限と、その低い量子ビットコヒーレンス時間、少ない量子ビット、高いエラー率とともに、産業的に関連するスケールでのMLでのQCの使用は現在不可能である。 QKMの潜在的な応用性を改善するための小さなステップとして、トレーニング中のサンプル数と時間複雑性が線形にスケールする量子カーネルアルゴリズムであるQUICKを導入し、推論段階でのトレーニングサンプル数に依存しない。 トレーニングプロセスでは、サンプルのカーネルエントリとクラスの中心のみを計算し、すなわち、nサンプルとcクラスのカーネルの最大形状は(n,c)である。 トレーニング中、量子カーネルのパラメータとセントロイドの位置は反復的に最適化される。 推論段階では、新しいサンプルごとに、回路は全てのセントロイド、すなわちC時間でのみ評価される。 QUICKアルゴリズムは,学習中に2次スケーリングを施した古典的カーネル手法と同等のレベルで,良好な結果が得られることを示す。 さらに,本アルゴリズムでは,MNISTのような次元の縮小を伴わずに,774の特徴を持つ高次元データセットを処理可能である。

Quantum computing (QC) seems to show potential for application in machine learning (ML). In particular quantum kernel methods (QKM) exhibit promising properties for use in supervised ML tasks. However, a major disadvantage of kernel methods is their unfavorable quadratic scaling with the number of training samples. Together with the limits imposed by currently available quantum hardware (NISQ devices) with their low qubit coherence times, small number of qubits, and high error rates, the use of QC in ML at an industrially relevant scale is currently impossible. As a small step in improving the potential applications of QKMs, we introduce QUACK, a quantum kernel algorithm whose time complexity scales linear with the number of samples during training, and independent of the number of training samples in the inference stage. In the training process, only the kernel entries for the samples and the centers of the classes are calculated, i.e. the maximum shape of the kernel for n samples and c classes is (n, c). During training, the parameters of the quantum kernel and the positions of the centroids are optimized iteratively. In the inference stage, for every new sample the circuit is only evaluated for every centroid, i.e. c times. We show that the QUACK algorithm nevertheless provides satisfactory results and can perform at a similar level as classical kernel methods with quadratic scaling during training. In addition, our (simulated) algorithm is able to handle high-dimensional datasets such as MNIST with 784 features without any dimensionality reduction.
翻訳日:2024-05-02 16:37:17 公開日:2024-05-01
# タスク適応型事前学習による音声感情認識のためのアクティブラーニング

Active Learning with Task Adaptation Pre-training for Speech Emotion Recognition ( http://arxiv.org/abs/2405.00307v1 )

ライセンス: Link先を確認
Dongyuan Li, Ying Zhang, Yusong Wang, Funakoshi Kataro, Manabu Okumura, (参考訳) 音声感情認識(SER)は、ヒューマン・マシン・インタラクション、仮想アシスタント、メンタルヘルス・アシストなど様々な分野で広く応用されているため、注目を集めている。 しかし、既存のSER手法では、事前学習した音声認識タスクと下流のSERタスクとの間の情報ギャップを無視することが多く、その結果、サブ最適性能が得られる。 さらに、現在の手法では、IEMOCAPのような特定の音声データセットの微調整に多くの時間を要する。 これらの課題に対処するために,タスク適応事前学習(TAPT)とAL手法を活用して性能と効率を向上させる,SERのためのアクティブラーニング(AL)に基づくファインチューニングフレームワーク(textsc{After})を提案する。 具体的には、まずTAPTを用いて、事前学習した音声認識タスクと下流の音声感情認識タスクとの間の情報ギャップを最小化する。 そして、AL法を用いて、最も情報に富んだ多種多様なサンプルのサブセットを反復的に選抜して微調整し、時間消費を減少させる。 実験の結果,提案手法は試料の20 %しか使用せず,精度を8.45 %改善し,時間消費を79 %削減できることがわかった。 textsc{After} のさらなる拡張とアブレーション研究により、様々な実世界のシナリオに対するその有効性と適用性がさらに確認された。 私たちのソースコードは、再現性のためにGithubで公開されています。 (https://github.com/Clearloveyuan/AFTER)。

Speech emotion recognition (SER) has garnered increasing attention due to its wide range of applications in various fields, including human-machine interaction, virtual assistants, and mental health assistance. However, existing SER methods often overlook the information gap between the pre-training speech recognition task and the downstream SER task, resulting in sub-optimal performance. Moreover, current methods require much time for fine-tuning on each specific speech dataset, such as IEMOCAP, which limits their effectiveness in real-world scenarios with large-scale noisy data. To address these issues, we propose an active learning (AL)-based fine-tuning framework for SER, called \textsc{After}, that leverages task adaptation pre-training (TAPT) and AL methods to enhance performance and efficiency. Specifically, we first use TAPT to minimize the information gap between the pre-training speech recognition task and the downstream speech emotion recognition task. Then, AL methods are employed to iteratively select a subset of the most informative and diverse samples for fine-tuning, thereby reducing time consumption. Experiments demonstrate that our proposed method \textsc{After}, using only 20\% of samples, improves accuracy by 8.45\% and reduces time consumption by 79\%. The additional extension of \textsc{After} and ablation studies further confirm its effectiveness and applicability to various real-world scenarios. Our source code is available on Github for reproducibility. (https://github.com/Clearloveyuan/AFTER).
翻訳日:2024-05-02 16:37:17 公開日:2024-05-01
# 擬似乱数発生器を用いたFPGAディジタルディス

FPGA Digital Dice using Pseudo Random Number Generator ( http://arxiv.org/abs/2405.00308v1 )

ライセンス: Link先を確認
Michael Lim Kee Hian, Ten Wei Lin, Zachary Wu Xuan, Stephanie-Ann Loy, Maoyang Xiang, T. Hui Teo, (参考訳) このプロジェクトの目的は、リアルタイムでサイコロ番号を表示するデジタルサイコロを設計することである。 数値はFPGA上のVerilog HDLで実装されたXORshiftアルゴリズムを用いて擬似ランダム数生成器(PRNG)によって生成される。 デジタルサイコロは、傾斜センサ、ディスプレイ、電力管理回路、および3Dプリントサイコロケーシングにホストされた充電可能なバッテリーを備える。 デジタルサイコロを揺動させることにより、傾斜センサ信号はPRNG用のシードを生成する。 このデジタルサイコロは、サイコロ側の数をシミュレートする2, 4, 6, 8, 10, 12, 20, 100のランダム数の集合を示す。 キット名はSUTDicey。

The goal of this project is to design a digital dice that displays dice numbers in real-time. The number is generated by a pseudo-random number generator (PRNG) using XORshift algorithm that is implemented in Verilog HDL on an FPGA. The digital dice is equipped with tilt sensor, display, power management circuit, and rechargeable battery hosted in a 3D printed dice casing. By shaking the digital dice, the tilt sensor signal produces a seed for the PRNG. This digital dice demonstrates a set of possible random numbers of 2, 4, 6, 8, 10, 12, 20, 100 that simulate the number of dice sides. The kit is named SUTDicey.
翻訳日:2024-05-02 16:37:17 公開日:2024-05-01
# 化学製造プロセスにおける故障診断のための3層深層学習ネットワークランダムツリー

Three-layer deep learning network random trees for fault diagnosis in chemical production process ( http://arxiv.org/abs/2405.00311v1 )

ライセンス: Link先を確認
Ming Lu, Zhen Gao, Ying Zou, Zuguo Chen, Pei Li, (参考訳) 技術の発達に伴い、化学製造プロセスはますます複雑で大規模になり、特に故障診断の重要性が高まっている。 しかし、現在の診断手法は、大規模生産プロセスの複雑さに対処するのに苦労している。 本稿では,ディープラーニングと機械学習技術の強みを統合し,双方向の長期・短期記憶型ニューラルネットワーク,完全連結型ニューラルネットワークの利点と,三層深層学習型ニューラルネットワークランダムツリー(TDLN-trees)と呼ばれる新たな故障診断モデルを提案する。 まず、ディープラーニングコンポーネントは、産業データから時間的特徴を抽出し、それらを組み合わせて高レベルのデータ表現に変換する。 次に、機械学習コンポーネントは、最初のステップで抽出された特徴を処理し、分類する。 テネシー・イーストマン法に基づく実験解析により,提案手法の優位性を検証した。

With the development of technology, the chemical production process is becoming increasingly complex and large-scale, making fault diagnosis particularly important. However, current diagnostic methods struggle to address the complexities of large-scale production processes. In this paper, we integrate the strengths of deep learning and machine learning technologies, combining the advantages of bidirectional long and short-term memory neural networks, fully connected neural networks, and the extra trees algorithm to propose a novel fault diagnostic model named three-layer deep learning network random trees (TDLN-trees). First, the deep learning component extracts temporal features from industrial data, combining and transforming them into a higher-level data representation. Second, the machine learning component processes and classifies the features extracted in the first step. An experimental analysis based on the Tennessee Eastman process verifies the superiority of the proposed method.
翻訳日:2024-05-02 16:37:17 公開日:2024-05-01
# 層状拡散ブラシを用いた画像編集

Streamlining Image Editing with Layered Diffusion Brushes ( http://arxiv.org/abs/2405.00313v1 )

ライセンス: Link先を確認
Peyman Gholami, Robert Xiao, (参考訳) 近年,様々な画像生成や操作タスクのための強力なツールとして,拡散モデルが注目されている。 そこで本研究では,既存のプロンプトベースの制御に加えて,詳細な領域を対象とする画像のリアルタイム編集を行う新しいツールを提案する。 新たな編集技術であるLayered Diffusion Brushesは,入力画像の整合性とコンテキストを維持しつつ,正確な修正を可能にする。 レイヤマスクや可視性トグル,レイヤの独立した操作といった,よく知られたイメージ編集概念を取り入れた,レイヤ拡散ブラシ修正に基づくエディタを提供する。 我々のシステムは、ハイエンドの消費者向けGPUを用いて、140ms以内の512×512イメージに対して1回の編集を行い、リアルタイムフィードバックと候補編集の迅速な探索を可能にした。 InstructPix2PixやStable Diffusion Inpaintingなどの既存技術と比較して,自然画像と生成画像の両方を併用したユーザスタディにより,本手法と編集システムの有効性を検証した。 提案手法は, オブジェクト属性調整, エラー訂正, 逐次的プロンプトに基づくオブジェクト配置と操作など, 多様なタスクに対して有効性を示し, その汎用性と創造的ワークフローの強化の可能性を示す。

Denoising diffusion models have recently gained prominence as powerful tools for a variety of image generation and manipulation tasks. Building on this, we propose a novel tool for real-time editing of images that provides users with fine-grained region-targeted supervision in addition to existing prompt-based controls. Our novel editing technique, termed Layered Diffusion Brushes, leverages prompt-guided and region-targeted alteration of intermediate denoising steps, enabling precise modifications while maintaining the integrity and context of the input image. We provide an editor based on Layered Diffusion Brushes modifications, which incorporates well-known image editing concepts such as layer masks, visibility toggles, and independent manipulation of layers; regardless of their order. Our system renders a single edit on a 512x512 image within 140 ms using a high-end consumer GPU, enabling real-time feedback and rapid exploration of candidate edits. We validated our method and editing system through a user study involving both natural images (using inversion) and generated images, showcasing its usability and effectiveness compared to existing techniques such as InstructPix2Pix and Stable Diffusion Inpainting for refining images. Our approach demonstrates efficacy across a range of tasks, including object attribute adjustments, error correction, and sequential prompt-based object placement and manipulation, demonstrating its versatility and potential for enhancing creative workflows.
翻訳日:2024-05-02 16:37:17 公開日:2024-05-01
# ビジョントランスのためのモデル量子化とハードウェアアクセラレーション:総合的な調査

Model Quantization and Hardware Acceleration for Vision Transformers: A Comprehensive Survey ( http://arxiv.org/abs/2405.00314v1 )

ライセンス: Link先を確認
Dayou Du, Gu Gong, Xiaowen Chu, (参考訳) ビジョントランスフォーマー(ViT)は最近、いくつかの視覚関連アプリケーションにおいて、畳み込みニューラルネットワーク(CNN)に代わる有望な選択肢として、かなりの注目を集めている。 しかし、その大きなモデルサイズと高い計算とメモリ要求は、特にリソース制約のあるデバイスへのデプロイメントを妨げる。 このことは、アルゴリズム構造と基盤となるハードウェアアクセラレーションの両方を互いの強みに合わせることで、その性能を最適化することを目的とした、ViT特有のアルゴリズムハードウェアの共同設計の必要性を浮き彫りにしている。 モデル量子化は、高精度な数値を低精度に変換することにより、ViTの計算要求とメモリ要求を低減し、これらの量子化アルゴリズムに最適化されたハードウェアの作成を可能にし、効率を向上する。 本稿では,ViTs量子化とそのハードウェアアクセラレーションに関する包括的調査を行う。 私たちはまず、ViTのユニークなアーキテクチャ特性とその実行時特性を掘り下げます。 その後、モデル量子化の基本原理について検討し、続いて、ViTの最先端量子化技術の比較分析を行った。 さらに、量子化されたViTのハードウェアアクセラレーションについて検討し、ハードウェアフレンドリーなアルゴリズム設計の重要性を強調した。 結論として、現在進行中の課題と今後の研究の道筋について論じる。 我々は、関連するオープンソース資料をhttps://github.com/DD-DuDa/awesome-vit-quantization-accelerationで一貫して管理しています。

Vision Transformers (ViTs) have recently garnered considerable attention, emerging as a promising alternative to convolutional neural networks (CNNs) in several vision-related applications. However, their large model sizes and high computational and memory demands hinder deployment, especially on resource-constrained devices. This underscores the necessity of algorithm-hardware co-design specific to ViTs, aiming to optimize their performance by tailoring both the algorithmic structure and the underlying hardware accelerator to each other's strengths. Model quantization, by converting high-precision numbers to lower-precision, reduces the computational demands and memory needs of ViTs, allowing the creation of hardware specifically optimized for these quantized algorithms, boosting efficiency. This article provides a comprehensive survey of ViTs quantization and its hardware acceleration. We first delve into the unique architectural attributes of ViTs and their runtime characteristics. Subsequently, we examine the fundamental principles of model quantization, followed by a comparative analysis of the state-of-the-art quantization techniques for ViTs. Additionally, we explore the hardware acceleration of quantized ViTs, highlighting the importance of hardware-friendly algorithm design. In conclusion, this article will discuss ongoing challenges and future research paths. We consistently maintain the related open-source materials at https://github.com/DD-DuDa/awesome-vit-quantization-acceleration.
翻訳日:2024-05-02 16:27:08 公開日:2024-05-01
# ニューロモルフィックコンピューティングのための共変時空間受容場

Covariant spatio-temporal receptive fields for neuromorphic computing ( http://arxiv.org/abs/2405.00318v1 )

ライセンス: Link先を確認
Jens Egholm Pedersen, Jörg Conradt, Tony Lindeberg, (参考訳) 生物学的神経系は、より速く、安価で、よりエネルギー効率の良いコンピュータへのインスピレーションの重要な源となっている。 ニューロモルフィックの規律は、脳を共進化系と見なし、ハードウェアとアルゴリズムを同時に最適化する。 計算を物理基板に持ち込む際には明らかに効率が向上するが、現在では効率的な実装を導くための理論が欠如している。 本稿では,空間上のアフィンガウス核と漏洩積分器と時間経過に伴う漏洩統合・火災モデルに基づく時空間受容場の観点から,ニューロモルフィックシステムの原理的計算モデルを提案する。 我々の理論は、空間的なアフィンや時間的スケーリングの変換と、哺乳類の脳の視覚的処理とよく似ていることが証明できる。 我々は,これらの時空間受容場をイベントベース視覚タスクの先行として使用し,それ以外はイベントベース視覚において問題となるスパイクネットワークのトレーニングを改善することを示す。 この研究は、スケールスペース理論と計算神経科学の取り組みを組み合わせて、ニューロモルフィックシステムにおける時空間信号を処理する理論的に確立された方法を特定する。 私たちのコントリビューションは、信号処理やイベントベースのビジョンに即時に関係しており、メモリや制御など、空間や時間とともに他の処理タスクにも拡張することができます。

Biological nervous systems constitute important sources of inspiration towards computers that are faster, cheaper, and more energy efficient. Neuromorphic disciplines view the brain as a coevolved system, simultaneously optimizing the hardware and the algorithms running on it. There are clear efficiency gains when bringing the computations into a physical substrate, but we presently lack theories to guide efficient implementations. Here, we present a principled computational model for neuromorphic systems in terms of spatio-temporal receptive fields, based on affine Gaussian kernels over space and leaky-integrator and leaky integrate-and-fire models over time. Our theory is provably covariant to spatial affine and temporal scaling transformations, and with close similarities to the visual processing in mammalian brains. We use these spatio-temporal receptive fields as a prior in an event-based vision task, and show that this improves the training of spiking networks, which otherwise is known as problematic for event-based vision. This work combines efforts within scale-space theory and computational neuroscience to identify theoretically well-founded ways to process spatio-temporal signals in neuromorphic systems. Our contributions are immediately relevant for signal processing and event-based vision, and can be extended to other processing tasks over space and time, such as memory and control.
翻訳日:2024-05-02 16:27:08 公開日:2024-05-01
# 長期予測のためのデータ拡張ポリシー探索

Data Augmentation Policy Search for Long-Term Forecasting ( http://arxiv.org/abs/2405.00319v1 )

ライセンス: Link先を確認
Liran Nochumsohn, Omri Azencot, (参考訳) データ拡張は、ニューラルネットワークにおける過度に適合する課題に対処する一般的な正規化テクニックとして機能する。 自動拡張は画像分類タスクに成功しているが、特に長期予測における時系列問題への応用は比較的少ない。 このギャップに対処するため,TSAAという時系列自動拡張手法を導入する。 このソリューションは、関連する二段階最適化問題に2段階のプロセスで対処することを含む: 最初は、限られた数のエポックに対して拡張されていないモデルを訓練し、次に反復的な分割手順を施す。 この反復的プロセスの間、ベイズ最適化を通じて頑健な拡張ポリシーを識別し、準最適実行を破棄しながらモデルを精錬する。 単変量および多変量予測ベンチマーク問題に対する広範な評価は、TSAAが一貫していくつかの堅牢なベースラインを上回り、予測パイプラインへの潜在的な統合を示唆していることを示している。

Data augmentation serves as a popular regularization technique to combat overfitting challenges in neural networks. While automatic augmentation has demonstrated success in image classification tasks, its application to time-series problems, particularly in long-term forecasting, has received comparatively less attention. To address this gap, we introduce a time-series automatic augmentation approach named TSAA, which is both efficient and easy to implement. The solution involves tackling the associated bilevel optimization problem through a two-step process: initially training a non-augmented model for a limited number of epochs, followed by an iterative split procedure. During this iterative process, we alternate between identifying a robust augmentation policy through Bayesian optimization and refining the model while discarding suboptimal runs. Extensive evaluations on challenging univariate and multivariate forecasting benchmark problems demonstrate that TSAA consistently outperforms several robust baselines, suggesting its potential integration into prediction pipelines.
翻訳日:2024-05-02 16:27:08 公開日:2024-05-01
# Web3と国家:インドのブロックチェーンの再定義

Web3 and the State: Indian state's redescription of blockchain ( http://arxiv.org/abs/2405.00320v1 )

ライセンス: Link先を確認
Debarun Sarkar, Cheshta Arora, (参考訳) 本記事は、NITI Aayog氏の議論論文と、インドにおけるブロックチェーンの非金融的ユースケースを提唱する電子情報技術省(MeitY)の戦略論文を詳しく読んでいる。 この論文は、インフラストラクチャによるガバナンスが新たなガバナンスの核心にあること、そしてブロックチェーンシステムが近年の連帯効果を持つために、州によって分散されたものとして指定されていること、を前提にしている。 この論文は, 信頼, 透明性, 分散化 (de) や (dis) インターメディエーションといった概念の非帰的変化のマッピングが, 新興社会技術システムの再記述を調査するための強力な場所であることを示すものである。

The article does a close reading of a discussion paper by NITI Aayog and a strategy paper by the Ministry of Electronics and Information Technology (MeitY) advocating non-financial use cases of blockchain in India. By noting the discursive shift from transparency to trust that grounds these two documents and consequently Indian state's redescription of blockchain, the paper foregrounds how governance by infrastructure is at the heart of new forms of governance and how blockchain systems are being designated as decentral by states to have recentralizing effects. The papers highlight how a mapping of discursive shifts of notions such as trust, transparency, (de)centralization and (dis)intermediation can be a potent site to investigate redescriptions of emerging sociotechnical systems.
翻訳日:2024-05-02 16:27:08 公開日:2024-05-01
# DFKI-NLP at SemEval-2024 Task 2: To toward Robust LLMs Using Data Perturbations and MinMax Training (特集:情報ネットワーク)

DFKI-NLP at SemEval-2024 Task 2: Towards Robust LLMs Using Data Perturbations and MinMax Training ( http://arxiv.org/abs/2405.00321v1 )

ライセンス: Link先を確認
Bhuvanesh Verma, Lisa Raithel, (参考訳) SemEval-2024のNLI4CTタスクは、大きな言語モデル(LLM)を用いた、CTR(Natural Language Inference on Clinical Trial Reports)のための堅牢なモデルの開発を強調している。 この版では、CTRの数値的、語彙的、意味的な側面を特に対象とする介入が導入されている。 提案システムは,NLI4CTデータセットの複雑な入力空間に集中するために,補助モデルによって補完される最先端のMistralモデルの能力を利用する。 データに数値および頭字語に基づく摂動を組み込むことにより、意味的変化と数値的矛盾の両方を扱うことのできる堅牢なシステムを訓練する。 データセットの解析は、CTRの困難な部分の推論に光を当てます。

The NLI4CT task at SemEval-2024 emphasizes the development of robust models for Natural Language Inference on Clinical Trial Reports (CTRs) using large language models (LLMs). This edition introduces interventions specifically targeting the numerical, vocabulary, and semantic aspects of CTRs. Our proposed system harnesses the capabilities of the state-of-the-art Mistral model, complemented by an auxiliary model, to focus on the intricate input space of the NLI4CT dataset. Through the incorporation of numerical and acronym-based perturbations to the data, we train a robust system capable of handling both semantic-altering and numerical contradiction interventions. Our analysis on the dataset sheds light on the challenging sections of the CTRs for reasoning.
翻訳日:2024-05-02 16:27:08 公開日:2024-05-01
# 量子増強センシングの資源としての離散時間結晶相

Discrete Time Crystal Phase as a Resource for Quantum Enhanced Sensing ( http://arxiv.org/abs/2405.00328v1 )

ライセンス: Link先を確認
Rozhin Yousefjani, Krzysztof Sacha, Abolfazl Bayat, (参考訳) 離散時間結晶(英: Discrete Time Crystals)は、周期的な駆動パルスによって時間変換対称性が破られる特殊な物質相である。 そこで本研究では, 有限サイズシステムにおいても, 不確定な持続振動を持つ無秩序多体系において, 安定な離散時間結晶相を生成するための有効機構を提案し, 特徴付ける。 次に、スピン交換結合を測定するために、このシステムのセンシング能力について検討する。 結果は, 時間結晶相を通じて, システムサイズの観点から, 強い超ハイゼンベルク精度を示す。 スピン交換結合が変化するにつれて、システムは鋭い相転移を経て、プローブの性能が著しく低下する非時間結晶相に入る。 この相転移を2次型として特徴付け、包括的有限サイズスケーリング解析によりその臨界特性を決定する。 我々のプローブの性能は初期状態とは独立であり、駆動パルスの不完全性から恩恵を受けるかもしれない。

Discrete time crystals are a special phase of matter in which time translational symmetry is broken through a periodic driving pulse. Here, we first propose and characterize an effective mechanism to generate a stable discrete time crystal phase in a disorder-free many-body system with indefinite persistent oscillations even in finite-size systems. Then we explore the sensing capability of this system to measure the spin exchange coupling. The results show strong super-Heisenberg precision, in terms of system size, throughout the time crystal phase. As the spin exchange coupling varies, the system goes through a sharp phase transition and enters a non-time crystal phase in which the performance of the probe considerably decreases. We characterize this phase transition as a second-order type and determine its critical properties through a comprehensive finite-size scaling analysis. The performance of our probe is independent of the initial states and may even benefit from imperfections in the driving pulse.
翻訳日:2024-05-02 16:27:08 公開日:2024-05-01
# プライバシ・ユーティリティ・トレードオフの計量幾何学

Metric geometry of the privacy-utility tradeoff ( http://arxiv.org/abs/2405.00329v1 )

ライセンス: Link先を確認
March Boedihardjo, Thomas Strohmer, Roman Vershynin, (参考訳) 合成データは、データ共有におけるプライバシーを実現するための魅力的な概念である。 基本的な問題は、プライバシを保存する合成データが真のデータとどのように似ているかである。 離散的な設定を超えた効果的な微分プライバシーの一般化である計量プライバシーを用いて、基礎空間の計量幾何学によって最適なプライバシー・正確性トレードオフを特徴づけるという問題を提起する。 我々は、この問題の「エントロピースケール」という用語で部分解を提供する。これは、そのパッキング数の振る舞いを通して計量空間のマルチスケール幾何学を捉える量である。 メカニカルスペースのさまざまな例を通して、プライバシ-正確性トレードオフフレームワークの適用性を説明します。

Synthetic data are an attractive concept to enable privacy in data sharing. A fundamental question is how similar the privacy-preserving synthetic data are compared to the true data. Using metric privacy, an effective generalization of differential privacy beyond the discrete setting, we raise the problem of characterizing the optimal privacy-accuracy tradeoff by the metric geometry of the underlying space. We provide a partial solution to this problem in terms of the "entropic scale", a quantity that captures the multiscale geometry of a metric space via the behavior of its packing numbers. We illustrate the applicability of our privacy-accuracy tradeoff framework via a diverse set of examples of metric spaces.
翻訳日:2024-05-02 16:27:08 公開日:2024-05-01
# 高等教育におけるA.I.の統合:「SAMCares: an Adaptive Learning Hub」によるパイロット研究のためのプロトコル

Integrating A.I. in Higher Education: Protocol for a Pilot Study with 'SAMCares: An Adaptive Learning Hub' ( http://arxiv.org/abs/2405.00330v1 )

ライセンス: Link先を確認
Syed Hasib Akhter Faruqui, Nazia Tasnim, Iftekhar Ibne Basith, Suleiman Obeidat, Faruk Yildiz, (参考訳) 学習は決して終わりませんし、成長する年齢制限もありません。 しかし、教育の状況は、学生の包摂性と多様な学習ニーズに効果的に対応する上での課題に直面する可能性がある。 これらの学生は、講義配信、オンラインリソース、技術ニーズに対する最先端の方法にアクセスできなければならない。 しかし、多様な学習源が揃っているため、学生は短時間で大量の知識を理解することが難しくなる。 従来の補助技術と学習支援は、個別の教育計画に必要な動的適応性を欠いていることが多い。 大規模言語モデル(LLM)は、言語翻訳、テキスト要約、コンテンツ生成アプリケーションで使われている。 ここ数年、AIの急速な成長に伴い、AIを利用したチャットボットと仮想アシスタントが開発されている。 本研究は,「SAMCares」と呼ぶ革新的な研究仲間を導入することで,このギャップを埋めることを目的としている。 本システムは,Large Language Model (LLM) とRetriever-Augmented Generation (RAG) を利用して,リアルタイム,コンテキスト認識,適応型教育支援を行う。 モデルのコンテキストは、Sam Houston State University(SHSU)のコースノートの知識ベースに限られる。 LLMコンポーネントは、各学生のユニークな学習要件を満たすために、チャットのような環境と対話することを可能にする。 このために、私たちはカスタムのWebベースのGUIを構築します。 同時に、RAGはリアルタイム情報検索とテキスト生成を強化し、それによってより正確でコンテキスト固有の支援を提供する。 追加の知識サポートが必要な場合、Web GUIに追加の学習資料をアップロードするオプションが追加される。 システムの有効性は、制御された試行と反復的なフィードバックメカニズムを通じて評価される。

Learning never ends, and there is no age limit to grow yourself. However, the educational landscape may face challenges in effectively catering to students' inclusion and diverse learning needs. These students should have access to state-of-the-art methods for lecture delivery, online resources, and technology needs. However, with all the diverse learning sources, it becomes harder for students to comprehend a large amount of knowledge in a short period of time. Traditional assistive technologies and learning aids often lack the dynamic adaptability required for individualized education plans. Large Language Models (LLM) have been used in language translation, text summarization, and content generation applications. With rapid growth in AI over the past years, AI-powered chatbots and virtual assistants have been developed. This research aims to bridge this gap by introducing an innovative study buddy we will be calling the 'SAMCares'. The system leverages a Large Language Model (LLM) (in our case, LLaMa-2 70B as the base model) and Retriever-Augmented Generation (RAG) to offer real-time, context-aware, and adaptive educational support. The context of the model will be limited to the knowledge base of Sam Houston State University (SHSU) course notes. The LLM component enables a chat-like environment to interact with it to meet the unique learning requirements of each student. For this, we will build a custom web-based GUI. At the same time, RAG enhances real-time information retrieval and text generation, in turn providing more accurate and context-specific assistance. An option to upload additional study materials in the web GUI is added in case additional knowledge support is required. The system's efficacy will be evaluated through controlled trials and iterative feedback mechanisms.
翻訳日:2024-05-02 16:27:08 公開日:2024-05-01
# 小学校算数科における大規模言語モデルの性能に関する注意深い検討

A Careful Examination of Large Language Model Performance on Grade School Arithmetic ( http://arxiv.org/abs/2405.00332v1 )

ライセンス: Link先を確認
Hugh Zhang, Jeff Da, Dean Lee, Vaughn Robinson, Catherine Wu, Will Song, Tiffany Zhao, Pranav Raja, Dylan Slack, Qin Lyu, Sean Hendryx, Russell Kaplan, Michele, Lunati, Summer Yue, (参考訳) 大規模言語モデル (LLM) は、数学的推論のための多くのベンチマークで驚くべき成功を収めた。 しかし、このパフォーマンスのいくつかは実際にデータセットの汚染を反映しているという懸念が高まっており、ベンチマークによく似たデータが真の推論能力ではなく、トレーニングデータに漏れ込む。 この主張を厳格に調査するために、小学校数学1000(GSM1k)を委託する。 GSM1kは、基本的な数学的推論を測定するための金の標準である確立されたGSM8kベンチマークのスタイルと複雑さを反映するように設計されている。 2つのベンチマークは、人間の解決率、ソリューションのステップ数、回答の規模など、重要な指標に匹敵するものであることを保証します。 GSM1k上でのオープンおよびクローズドソースLCMの評価では、最大13%の精度低下を観測し、いくつかのモデルのファミリー(例えば、Phi、Mistral)は、ほぼすべてのモデルサイズに体系的にオーバーフィットする証拠を示している。 同時に、多くのモデル、特にフロンティアのモデル(例えば、Gemini/GPT/Claude)は、オーバーフィッティングの兆候を最小限に示している。 さらなる分析では、モデルが GSM8k からサンプルを生成する確率と GSM8k と GSM1k のパフォーマンスギャップとの間の正の関係(スピアマンの r^2=0.32)が示唆され、多くのモデルが部分的に GSM8k を記憶している可能性が示唆されている。

Large language models (LLMs) have achieved impressive success on many benchmarks for mathematical reasoning. However, there is growing concern that some of this performance actually reflects dataset contamination, where data closely resembling benchmark questions leaks into the training data, instead of true reasoning ability. To investigate this claim rigorously, we commission Grade School Math 1000 (GSM1k). GSM1k is designed to mirror the style and complexity of the established GSM8k benchmark, the gold standard for measuring elementary mathematical reasoning. We ensure that the two benchmarks are comparable across important metrics such as human solve rates, number of steps in solution, answer magnitude, and more. When evaluating leading open- and closed-source LLMs on GSM1k, we observe accuracy drops of up to 13%, with several families of models (e.g., Phi and Mistral) showing evidence of systematic overfitting across almost all model sizes. At the same time, many models, especially those on the frontier, (e.g., Gemini/GPT/Claude) show minimal signs of overfitting. Further analysis suggests a positive relationship (Spearman's r^2=0.32) between a model's probability of generating an example from GSM8k and its performance gap between GSM8k and GSM1k, suggesting that many models may have partially memorized GSM8k.
翻訳日:2024-05-02 16:27:08 公開日:2024-05-01
# 深層能動学習に関する調査 : 最近の進歩と新たなフロンティア

A Survey on Deep Active Learning: Recent Advances and New Frontiers ( http://arxiv.org/abs/2405.00334v1 )

ライセンス: Link先を確認
Dongyuan Li, Zhen Wang, Yankai Chen, Renhe Jiang, Weiping Ding, Manabu Okumura, (参考訳) アクティブな学習は、より少ないトレーニングサンプルで強力なパフォーマンスを達成することを目指している。 これは、宣誓供述書に新たに選択されたサンプルを人道的な方法でラベル付けするよう、反復的に求めている。 この手法は適用可能性の広さから人気が高まりつつあるが、特にディープラーニングに基づくアクティブラーニング(DAL)に関する調査論文は乏しいままである。 そこで我々は,高度かつ総合的なDAL調査を実施している。 まず,論文の収集とフィルタリングについて紹介する。 次に、DALタスクを正式に定義し、最も影響力のあるベースラインと広く使用されているデータセットを要約する。 第3に、アノテーションタイプ、クエリ戦略、深層モデルアーキテクチャ、学習パラダイム、トレーニングプロセスを含む5つの視点から、DALメソッドの分類を体系的に提供し、その長所と短所を客観的に分析する。 次に、自然言語処理(NLP)、コンピュータビジョン(CV)、データマイニング(DM)などにおけるDALの主な応用を包括的に要約する。 最後に,現在の研究を詳細に分析した上で,課題と視点について論じる。 この研究は、DALの困難を克服する上で、研究者にとって有用かつ迅速なガイドとなることを目的としている。 この調査が、この急成長分野のさらなる進展を後押しすることを期待している」と述べた。

Active learning seeks to achieve strong performance with fewer training samples. It does this by iteratively asking an oracle to label new selected samples in a human-in-the-loop manner. This technique has gained increasing popularity due to its broad applicability, yet its survey papers, especially for deep learning-based active learning (DAL), remain scarce. Therefore, we conduct an advanced and comprehensive survey on DAL. We first introduce reviewed paper collection and filtering. Second, we formally define the DAL task and summarize the most influential baselines and widely used datasets. Third, we systematically provide a taxonomy of DAL methods from five perspectives, including annotation types, query strategies, deep model architectures, learning paradigms, and training processes, and objectively analyze their strengths and weaknesses. Then, we comprehensively summarize main applications of DAL in Natural Language Processing (NLP), Computer Vision (CV), and Data Mining (DM), etc. Finally, we discuss challenges and perspectives after a detailed analysis of current studies. This work aims to serve as a useful and quick guide for researchers in overcoming difficulties in DAL. We hope that this survey will spur further progress in this burgeoning field.
翻訳日:2024-05-02 16:27:08 公開日:2024-05-01
# 白人男性を見つける:Googleの政治検索におけるアルゴリズム的性別と人種偏見の頻度と結果

Finding the white male: The prevalence and consequences of algorithmic gender and race bias in political Google searches ( http://arxiv.org/abs/2405.00335v1 )

ライセンス: Link先を確認
Tobias Rohrbach, Mykola Makhortykh, Maryna Sydorova, (参考訳) Googleのような検索エンジンは、人工知能(AI)を使って、政治情報を探すときに誰が何を見つけるかを決定する主要な情報ゲートキーパーになっている。 本稿では,4つの研究のシリーズにおいて,少数化群のアルゴリズム表現の枠組みを提案し,検証する。 第一に、2つのアルゴリズムによる政治画像検索の監査は、検索エンジンが女性や非白人の政治家を軽視して、構造的不平等を反映し、維持していることを示す。 第二に、2つのオンライン実験は、これらのバイアスが、アルゴリズム表現の偏見によって、政治的現実の認識を歪め、白人で男性化された政治観を積極的に補強することを示している。 この結果は、AI技術が政治的認識や意思決定のバイアスをどう増幅するかという科学的理解に実質的な意味を持つ。 この記事は、現在進行中の公開討論や、アルゴリズムの公正性と不正に関する学際的研究に貢献する。

Search engines like Google have become major information gatekeepers that use artificial intelligence (AI) to determine who and what voters find when searching for political information. This article proposes and tests a framework of algorithmic representation of minoritized groups in a series of four studies. First, two algorithm audits of political image searches delineate how search engines reflect and uphold structural inequalities by under- and misrepresenting women and non-white politicians. Second, two online experiments show that these biases in algorithmic representation in turn distort perceptions of the political reality and actively reinforce a white and masculinized view of politics. Together, the results have substantive implications for the scientific understanding of how AI technology amplifies biases in political perceptions and decision-making. The article contributes to ongoing public debates and cross-disciplinary research on algorithmic fairness and injustice.
翻訳日:2024-05-02 16:27:08 公開日:2024-05-01
# NC-SDF:ビュー依存正規補償を用いたニューラルSDFを用いた屋内シーン再構築の強化

NC-SDF: Enhancing Indoor Scene Reconstruction Using Neural SDFs with View-Dependent Normal Compensation ( http://arxiv.org/abs/2405.00340v1 )

ライセンス: Link先を確認
Ziyi Chen, Xiaolong Wu, Yu Zhang, (参考訳) 最先端のニューラルな暗黙の表面表現は、モノクラー幾何学的先行を追加の監督として組み込むことで、屋内のシーン再構築において印象的な成果を上げている。 しかし,このような先進国間の複数視点の不整合は,高品質な再建の課題となっている。 そこで我々は,ビュー依存正規補償(NC)を用いたニューラルサイン付き距離場(SDF)3次元再構成フレームワークNC-SDFを提案する。 具体的には、視覚依存バイアスを単眼の正常な前兆として、シーンの暗黙的表現に統合する。 NC-SDFは, バイアスを適応的に学習し, 補正することにより, 不整合性監視の悪影響を効果的に軽減し, 再建におけるグローバルな一貫性と局所的な詳細性を高める。 さらに細部を改良するために,情報量の多い複雑な幾何学にもっと注意を払うために,情報的画素サンプリング戦略を導入する。 さらに、ニューラルな暗黙表現を改善するために、ハイブリッドな幾何学モデリング手法を設計する。 合成および実世界のデータセットの実験により、NC-SDFは復元品質において既存のアプローチよりも優れていることが示された。

State-of-the-art neural implicit surface representations have achieved impressive results in indoor scene reconstruction by incorporating monocular geometric priors as additional supervision. However, we have observed that multi-view inconsistency between such priors poses a challenge for high-quality reconstructions. In response, we present NC-SDF, a neural signed distance field (SDF) 3D reconstruction framework with view-dependent normal compensation (NC). Specifically, we integrate view-dependent biases in monocular normal priors into the neural implicit representation of the scene. By adaptively learning and correcting the biases, our NC-SDF effectively mitigates the adverse impact of inconsistent supervision, enhancing both the global consistency and local details in the reconstructions. To further refine the details, we introduce an informative pixel sampling strategy to pay more attention to intricate geometry with higher information content. Additionally, we design a hybrid geometry modeling approach to improve the neural implicit representation. Experiments on synthetic and real-world datasets demonstrate that NC-SDF outperforms existing approaches in terms of reconstruction quality.
翻訳日:2024-05-02 16:27:08 公開日:2024-05-01
# 深部支援ベクトルに基づく実用的データセット蒸留

Practical Dataset Distillation Based on Deep Support Vectors ( http://arxiv.org/abs/2405.00348v1 )

ライセンス: Link先を確認
Hyunho Lee, Junhoo Lee, Nojun Kwak, (参考訳) 従来のデータセットの蒸留には、重要な計算資源が必要であり、すべてのデータが中央サーバーに存在すると仮定する前提として、データセット全体へのアクセスを前提としています。 本稿では,データセット全体のごく一部にのみアクセス可能な実運用シナリオにおけるデータセット蒸留に着目した。 本稿では,Deep KKT (DKKT) の損失を付加することにより,一般的なモデル知識を取り入れ,従来のプロセスを強化する新しい蒸留法を提案する。 CIFAR-10データセットのベースライン分布マッチング蒸留法と比較して,本手法では性能が向上した。 さらに, ディープ・サポート・ベクターズ(DSV)がオリジナル蒸留にユニークな情報を提供し, その統合により性能が向上することを示す実験的な証拠を提示する。

Conventional dataset distillation requires significant computational resources and assumes access to the entire dataset, an assumption impractical as it presumes all data resides on a central server. In this paper, we focus on dataset distillation in practical scenarios with access to only a fraction of the entire dataset. We introduce a novel distillation method that augments the conventional process by incorporating general model knowledge via the addition of Deep KKT (DKKT) loss. In practical settings, our approach showed improved performance compared to the baseline distribution matching distillation method on the CIFAR-10 dataset. Additionally, we present experimental evidence that Deep Support Vectors (DSVs) offer unique information to the original distillation, and their integration results in enhanced performance.
翻訳日:2024-05-02 16:27:08 公開日:2024-05-01
# 一般化可能な概念学習のための自己説明型ニューラルネットワーク

A Self-explaining Neural Architecture for Generalizable Concept Learning ( http://arxiv.org/abs/2405.00349v1 )

ライセンス: Link先を確認
Sanchit Sinha, Guangzhi Xiong, Aidong Zhang, (参考訳) 大規模アプリケーションにおけるディープニューラルネットワークの普及に伴い、意思決定プロセスの背後にある説明可能性への需要が高まっている。 概念学習モデルは、人間の理解と整合した抽象的な実体である高レベルの「概念」を学習しようと試み、それによってDNNアーキテクチャへの解釈可能性を提供する。 しかし,本論文では,モデルが類似クラス間の一貫した概念を学習できないような概念忠実性の欠如と,学習された概念を同じタスクのために新しいドメインに一般化できないような概念相互運用の限界という,現在のSOTA概念学習アプローチが大きな2つの問題に悩まされていることを実証する。 これらを念頭に置いて,ドメイン間の概念学習のための新しい自己説明型アーキテクチャを提案する。 一 代表的概念選択のための新しいコンセプト・サリエンシ・ネットワークを組み込むこと。 二 対照的な学習を利用して代表的領域不変概念を捉えること。 三 ドメイン間のコンセプトアライメントを改善するために、新しいプロトタイプベースのコンセプトグラウンドライゼーションを使用する。 提案手法は,現在広く使われている4つの実世界のデータセットに対するSOTA概念学習手法に対して有効であることを示す。 実験の結果,提案手法は,概念重なりとドメイン適応性能による概念相互運用による概念忠実度を両立させることがわかった。

With the wide proliferation of Deep Neural Networks in high-stake applications, there is a growing demand for explainability behind their decision-making process. Concept learning models attempt to learn high-level 'concepts' - abstract entities that align with human understanding, and thus provide interpretability to DNN architectures. However, in this paper, we demonstrate that present SOTA concept learning approaches suffer from two major problems - lack of concept fidelity wherein the models fail to learn consistent concepts among similar classes and limited concept interoperability wherein the models fail to generalize learned concepts to new domains for the same task. Keeping these in mind, we propose a novel self-explaining architecture for concept learning across domains which - i) incorporates a new concept saliency network for representative concept selection, ii) utilizes contrastive learning to capture representative domain invariant concepts, and iii) uses a novel prototype-based concept grounding regularization to improve concept alignment across domains. We demonstrate the efficacy of our proposed approach over current SOTA concept learning approaches on four widely used real-world datasets. Empirical results show that our method improves both concept fidelity measured through concept overlap and concept interoperability measured through domain adaptation performance.
翻訳日:2024-05-02 16:27:08 公開日:2024-05-01
# バーチャルリアリティーにおける全方位画像における高品質ナビゲーションとズームングの学習

Learning High-Quality Navigation and Zooming on Omnidirectional Images in Virtual Reality ( http://arxiv.org/abs/2405.00351v1 )

ライセンス: Link先を確認
Zidong Cao, Zhan Wang, Yexin Liu, Yan-Pei Cao, Ying Shan, Wei Zeng, Lin Wang, (参考訳) バーチャルリアリティー(VR)における全方位画像(ODI)を見ることは、ユーザがデジタルコンテンツをナビゲートしたり操作したりするための没入的な体験を提供する新しい形式のメディアである。 にもかかわらず、この没入感は、詳細を隠蔽し、ユーザーが興味のある物と関わる能力を損なう、ぼやけた効果によって大きく損なわれる可能性がある。 本稿では,VRナビゲーションにおける視覚的明瞭度を高めるために,OmniVRと呼ばれる新しいシステムを提案する。 当社のシステムでは,VRに関心のある対象を,ユーザーが自由に見つけてズームインすることができる。 ナビゲーションとズームのためのユーザコマンドをキャプチャし、これらの入力をMobius変換マトリックスのパラメータに変換する。 これらのパラメータを活用することで、ODIは学習ベースのアルゴリズムを使用して洗練される。 結果として得られるODIはVRメディア内で表示され、効果的にぼやけを減らし、ユーザのエンゲージメントを増大させる。 提案システムの有効性を検証するため,まず,提案アルゴリズムを公開データセット上で最先端の手法で評価し,その性能を向上する。 さらに,様々なシナリオにおける視聴者体験を評価し,複数の視点から質的なフィードバックを収集するために,包括的ユーザスタディを実施している。 その結果,視聴者の認識の向上,不快感の低減,総合的な没入感の向上などにより,ユーザエンゲージメントの向上が図られた。 私たちのシステムはナビゲーションとズームをよりユーザフレンドリにします。

Viewing omnidirectional images (ODIs) in virtual reality (VR) represents a novel form of media that provides immersive experiences for users to navigate and interact with digital content. Nonetheless, this sense of immersion can be greatly compromised by a blur effect that masks details and hampers the user's ability to engage with objects of interest. In this paper, we present a novel system, called OmniVR, designed to enhance visual clarity during VR navigation. Our system enables users to effortlessly locate and zoom in on the objects of interest in VR. It captures user commands for navigation and zoom, converting these inputs into parameters for the Mobius transformation matrix. Leveraging these parameters, the ODI is refined using a learning-based algorithm. The resultant ODI is presented within the VR media, effectively reducing blur and increasing user engagement. To verify the effectiveness of our system, we first evaluate our algorithm with state-of-the-art methods on public datasets, which achieves the best performance. Furthermore, we undertake a comprehensive user study to evaluate viewer experiences across diverse scenarios and to gather their qualitative feedback from multiple perspectives. The outcomes reveal that our system enhances user engagement by improving the viewers' recognition, reducing discomfort, and improving the overall immersive experience. Our system makes the navigation and zoom more user-friendly.
翻訳日:2024-05-02 16:27:08 公開日:2024-05-01
# 時間的知識グラフに基づく事象の進化的連鎖学習のためのトランスフォーマーに基づく推論

Transformer-based Reasoning for Learning Evolutionary Chain of Events on Temporal Knowledge Graph ( http://arxiv.org/abs/2405.00352v1 )

ライセンス: Link先を確認
Zhiyu Fang, Shuai-Long Lei, Xiaobin Zhu, Chun Yang, Shi-Xue Zhang, Xu-Cheng Yin, Jingyan Qin, (参考訳) 時間的知識グラフ(TKG)の推論は、しばしばタイムラインに沿って行方不明の事実要素を補完する。 既存の手法では、時間的情報を統合することによって4重項の各要素の適切な埋め込みを学習できるが、時間的事実の進化を推測することができないことが多い。 これは主に、(1)個々の四重項の内部構造と意味的関係を不十分に探求し、(2)異なる四重項間の文脈的・時間的相関の統一表現を不十分に学習するためである。 これらの制約を克服するために、TKGがイベントの進化的連鎖(ECE)を学ぶためのトランスフォーマーベースの推論モデル(ECEformerと呼ばれる)を提案する。 具体的には、エンティティノードの近傍部分グラフを時系列順に展開し、モデルの入力としてイベントの進化的連鎖を形成する。 その後、トランスフォーマーエンコーダを用いて、ECEのための四重極内埋め込みを学習する。 次に、多層パーセプトロン(MLP)に基づく混合コンテキスト推論モジュールを作成し、時間的知識推論を行いながら、ECEのための四重項間の統一表現を学習する。 さらに,イベントのタイムラインを改善するために,学習された統合表現の中で効果的な時間情報を完成させるための追加の時間予測タスクを考案した。 6つのベンチマークデータセットの大規模な実験により、最先端の性能と手法の有効性が検証された。

Temporal Knowledge Graph (TKG) reasoning often involves completing missing factual elements along the timeline. Although existing methods can learn good embeddings for each factual element in quadruples by integrating temporal information, they often fail to infer the evolution of temporal facts. This is mainly because of (1) insufficiently exploring the internal structure and semantic relationships within individual quadruples and (2) inadequately learning a unified representation of the contextual and temporal correlations among different quadruples. To overcome these limitations, we propose a novel Transformer-based reasoning model (dubbed ECEformer) for TKG to learn the Evolutionary Chain of Events (ECE). Specifically, we unfold the neighborhood subgraph of an entity node in chronological order, forming an evolutionary chain of events as the input for our model. Subsequently, we utilize a Transformer encoder to learn the embeddings of intra-quadruples for ECE. We then craft a mixed-context reasoning module based on the multi-layer perceptron (MLP) to learn the unified representations of inter-quadruples for ECE while accomplishing temporal knowledge reasoning. In addition, to enhance the timeliness of the events, we devise an additional time prediction task to complete effective temporal information within the learned unified representation. Extensive experiments on six benchmark datasets verify the state-of-the-art performance and the effectiveness of our method.
翻訳日:2024-05-02 16:17:22 公開日:2024-05-01
# CrossMatch: 摂動戦略と知識蒸留による半監督型医用画像セグメンテーション

CrossMatch: Enhance Semi-Supervised Medical Image Segmentation with Perturbation Strategies and Knowledge Distillation ( http://arxiv.org/abs/2405.00354v1 )

ライセンス: Link先を確認
Bin Zhao, Chunshi Wang, Shuxue Ding, (参考訳) 医用画像セグメンテーションのための半教師付き学習は、豊富なラベル付きデータを活用しながら、限られたラベル付きデータを効率的に利用するというユニークな課題を提示する。 進歩にもかかわらず、既存の手法はモデル堅牢性と精度を高めるためにラベルのないデータの可能性を完全に活用しないことが多い。 本稿では,ラベル付きデータとラベルなしデータの両方からモデルの学習を改善するために,知識蒸留と二重摂動戦略を融合した新しいフレームワークであるCrossMatchを紹介する。 CrossMatchでは、複数のエンコーダとデコーダを使用して、さまざまなデータストリームを生成する。 本手法は,ラベル付きデータのトレーニングとラベルなしデータのギャップを効果的に最小化し,医用画像セグメンテーションにおけるエッジ精度と一般化を向上することにより,標準ベンチマークにおける他の最先端技術を大幅に上回っている。 CrossMatchの有効性は、広範囲な実験的検証を通じて実証され、計算コストを増大させることなく、顕著な性能向上を示す。 この実装のコードはhttps://github.com/AiEson/CrossMatch.gitで公開されている。

Semi-supervised learning for medical image segmentation presents a unique challenge of efficiently using limited labeled data while leveraging abundant unlabeled data. Despite advancements, existing methods often do not fully exploit the potential of the unlabeled data for enhancing model robustness and accuracy. In this paper, we introduce CrossMatch, a novel framework that integrates knowledge distillation with dual perturbation strategies-image-level and feature-level-to improve the model's learning from both labeled and unlabeled data. CrossMatch employs multiple encoders and decoders to generate diverse data streams, which undergo self-knowledge distillation to enhance consistency and reliability of predictions across varied perturbations. Our method significantly surpasses other state-of-the-art techniques in standard benchmarks by effectively minimizing the gap between training on labeled and unlabeled data and improving edge accuracy and generalization in medical image segmentation. The efficacy of CrossMatch is demonstrated through extensive experimental validations, showing remarkable performance improvements without increasing computational costs. Code for this implementation is made available at https://github.com/AiEson/CrossMatch.git.
翻訳日:2024-05-02 16:17:22 公開日:2024-05-01
# ディープフェイク検出のための自己監督型視覚変換器の探索:比較分析

Exploring Self-Supervised Vision Transformers for Deepfake Detection: A Comparative Analysis ( http://arxiv.org/abs/2405.00355v1 )

ライセンス: Link先を確認
Huy H. Nguyen, Junichi Yamagishi, Isao Echizen, (参考訳) 本稿では,教師付き事前学習型変圧器と従来のニューラルネットワーク(ConvNet)と比較して,各種のディープフェイクを検出するための自己教師付き事前学習型変圧器の有効性について検討する。 我々は、特にトレーニングデータに制限がある場合に、それらの一般化を改善する可能性に焦点を当てる。 ゼロショットや少数ショット学習など、様々なタスクでトランスフォーマーアーキテクチャを利用する大規模な視覚言語モデルの成功にもかかわらず、ディープフェイク検出コミュニティは、まだ事前訓練されたビジョントランスフォーマー(ViT)、特に大きなものを特徴抽出器として採用する傾向がある。 懸念の1つは、広範囲なデータを必要とすると認識される過剰なキャパシティであり、トレーニングや微調整データにおいて、結果として得られる最適下限の一般化は、小さいか、少なからぬ多様性である。 これは、すでに堅牢な機能抽出ツールとして確立されているConvNetsとは対照的である。 さらに、スクラッチからトランスフォーマーをトレーニングし、最適化するには、重要な計算資源が必要である。 DINOなどのトランスフォーマーにおける自己教師付き学習(SSL)の最近の進歩は、多様な視覚タスクに適応し、明示的なセマンティックセグメンテーション機能を持つことを示す。 本研究では,DINOを学習データを用いたディープフェイク検出に利用し,部分的な微調整を実現することにより,タスクへの適応性と,アテンション機構による検出結果の自然な説明性について考察する。 さらに、ディープフェイク検出のための変換器の部分的な微調整は、よりリソース効率の良い代替手段を提供し、計算資源を著しく少なくする。

This paper investigates the effectiveness of self-supervised pre-trained transformers compared to supervised pre-trained transformers and conventional neural networks (ConvNets) for detecting various types of deepfakes. We focus on their potential for improved generalization, particularly when training data is limited. Despite the notable success of large vision-language models utilizing transformer architectures in various tasks, including zero-shot and few-shot learning, the deepfake detection community has still shown some reluctance to adopt pre-trained vision transformers (ViTs), especially large ones, as feature extractors. One concern is their perceived excessive capacity, which often demands extensive data, and the resulting suboptimal generalization when training or fine-tuning data is small or less diverse. This contrasts poorly with ConvNets, which have already established themselves as robust feature extractors. Additionally, training and optimizing transformers from scratch requires significant computational resources, making this accessible primarily to large companies and hindering broader investigation within the academic community. Recent advancements in using self-supervised learning (SSL) in transformers, such as DINO and its derivatives, have showcased significant adaptability across diverse vision tasks and possess explicit semantic segmentation capabilities. By leveraging DINO for deepfake detection with modest training data and implementing partial fine-tuning, we observe comparable adaptability to the task and the natural explainability of the detection result via the attention mechanism. Moreover, partial fine-tuning of transformers for deepfake detection offers a more resource-efficient alternative, requiring significantly fewer computational resources.
翻訳日:2024-05-02 16:17:22 公開日:2024-05-01
# 時間知識グラフ埋め込みのための多項式近似による任意時間情報モデリング

Arbitrary Time Information Modeling via Polynomial Approximation for Temporal Knowledge Graph Embedding ( http://arxiv.org/abs/2405.00358v1 )

ライセンス: Link先を確認
Zhiyu Fang, Jingyan Qin, Xiaobin Zhu, Chun Yang, Xu-Cheng Yin, (参考訳) 従来の知識グラフ(KGs)とは違い、時間的知識グラフ(TKGs)は時間的に進化する事実を適切に探索し、推論する必要がある。 しかしながら、既存のTKGアプローチは、任意のタイムスタンプを連続的にモデル化する限られた能力と、時間的制約の下での豊富な推論パターンの欠如という、2つの大きな課題に直面している。 本稿では,多項式分解に基づく時間的表現とボックス埋め込みに基づく実体表現を用いた革新的TKGE法(PTBox)を提案する。 具体的には、多項式による時間情報の分解を行い、学習可能な時間的基底テンソルを組み込んで任意のタイムスタンプを柔軟に表現するモデルの能力を強化する。 さらに、すべてのエンティティを超長方形ボックスとしてモデル化し、それぞれの関係を頭と尾のエンティティボックス上の変換として定義する。 エンティティボックスは複雑な幾何学的構造をキャプチャし、ロバストな表現を学ぶことができ、リッチな推論パターンに対するモデルの帰納的能力を改善することができる。 理論的には、PTBoxは任意の時間情報やタイムスタンプさえもエンコードでき、豊富な推論パターンと知識ベースとの高親密な関係をキャプチャできる。 実世界のデータセットに対する大規模な実験により,本手法の有効性が示された。

Distinguished from traditional knowledge graphs (KGs), temporal knowledge graphs (TKGs) must explore and reason over temporally evolving facts adequately. However, existing TKG approaches still face two main challenges, i.e., the limited capability to model arbitrary timestamps continuously and the lack of rich inference patterns under temporal constraints. In this paper, we propose an innovative TKGE method (PTBox) via polynomial decomposition-based temporal representation and box embedding-based entity representation to tackle the above-mentioned problems. Specifically, we decompose time information by polynomials and then enhance the model's capability to represent arbitrary timestamps flexibly by incorporating the learnable temporal basis tensor. In addition, we model every entity as a hyperrectangle box and define each relation as a transformation on the head and tail entity boxes. The entity boxes can capture complex geometric structures and learn robust representations, improving the model's inductive capability for rich inference patterns. Theoretically, our PTBox can encode arbitrary time information or even unseen timestamps while capturing rich inference patterns and higher-arity relations of the knowledge base. Extensive experiments on real-world datasets demonstrate the effectiveness of our method.
翻訳日:2024-05-02 16:17:22 公開日:2024-05-01
# AdaMole: 低ランク適応エキスパートの適応混合を用いた微調整大言語モデル

AdaMoLE: Fine-Tuning Large Language Models with Adaptive Mixture of Low-Rank Adaptation Experts ( http://arxiv.org/abs/2405.00361v1 )

ライセンス: Link先を確認
Zefang Liu, Jiahua Luo, (参考訳) 本稿では,Low-Rank Adaptation (LoRA) Expertsを通じて,大規模言語モデル(LLM)を微調整する新しい手法であるAdaMoLEを紹介する。 AdaMoLEは、専門家を活性化するための静的トップk戦略を採用する従来の方法を超えて、専用のしきい値ネットワークを使用してアクティベーションしきい値を動的に調整し、さまざまなタスクの複雑さに適応的に応答する。 単一のLoRAを複数のLoRA専門家に置き換え、しきい値メカニズムにゲーティング関数を統合することで、AdaMoLEは入力コンテキストに基づいて、最も適切な専門家を効果的に選択し、活性化する。 様々なコモンセンス推論や自然言語処理タスクに対する広範な評価は,AdaMoLEがベースライン性能を上回ることを示す。 この強化は、AdaMoLEがLoRAの専門家を適応的に選別することの利点を強調し、専門家数の増加を伴わないモデルの有効性を向上させる。 実験による検証により、AdaMoLEはLLMの強化のための堅牢なアプローチであるだけでなく、適応的な専門家選択機構の研究にも有用であることが示唆され、多種多様な言語処理タスクにおけるモデル性能の最適化の範囲が拡大される可能性がある。

We introduce AdaMoLE, a novel method for fine-tuning large language models (LLMs) through an Adaptive Mixture of Low-Rank Adaptation (LoRA) Experts. Moving beyond conventional methods that employ a static top-k strategy for activating experts, AdaMoLE dynamically adjusts the activation threshold using a dedicated threshold network, adaptively responding to the varying complexities of different tasks. By replacing a single LoRA in a layer with multiple LoRA experts and integrating a gating function with the threshold mechanism, AdaMoLE effectively selects and activates the most appropriate experts based on the input context. Our extensive evaluations across a variety of commonsense reasoning and natural language processing tasks show that AdaMoLE exceeds baseline performance. This enhancement highlights the advantages of AdaMoLE's adaptive selection of LoRA experts, improving model effectiveness without a corresponding increase in the expert count. The experimental validation not only confirms AdaMoLE as a robust approach for enhancing LLMs but also suggests valuable directions for future research in adaptive expert selection mechanisms, potentially broadening the scope for optimizing model performance across diverse language processing tasks.
翻訳日:2024-05-02 16:17:22 公開日:2024-05-01
# 平均場コヒーレントイジングマシンを用いたL0規則化圧縮センシング

L0-regularized compressed sensing with Mean-field Coherent Ising Machines ( http://arxiv.org/abs/2405.00366v1 )

ライセンス: Link先を確認
Mastiyage Don Sudeera Hasaranga Gunathilaka, Yoshitaka Inui, Satoshi Kako, Kazushi Mimura, Masato Okada, Yoshihisa Yamamoto, Toru Aonishi, (参考訳) コヒーレントイジングマシン(Coherent Ising Machine, CIM)は、イジング・ハミルトンの基底状態を見つけることで組合せ最適化問題を解決する光学パラメトリック発振器のネットワークである。 CIMの実用化として、AonishiらはL0規則化に基づく圧縮センシング(L0RBCS)の最適化問題を解決するために量子古典ハイブリッドシステムを提案した。 Gunathilakaらはシステムの精度をさらに高めた。 しかし、計算コストのかかるCIMの確率微分方程式(SDE)は、デジタルハードウェアの実装の使用を制限する。 我々は,GunathilakaらのCIM SDEの代替として,量子ノイズのない物理学的なヒューリスティック解法である平均場CIM(MF-CIM)モデルを提案する。 MF-CIMは微分方程式(DE)の単純性により計算コストを上回ります。 さらに,提案手法は,CIMベースのL0RBCSをFPGA(Field Programmable Gate Arrays)などのデジタルハードウェア上で実装する方法として,人工的および磁気共鳴画像データの両方において,物理的に正確なSDEと類似した性能を有することを示す。

Coherent Ising Machine (CIM) is a network of optical parametric oscillators that solves combinatorial optimization problems by finding the ground state of an Ising Hamiltonian. As a practical application of CIM, Aonishi et al. proposed a quantum-classical hybrid system to solve optimization problems of L0-regularization-based compressed sensing (L0RBCS). Gunathilaka et al. has further enhanced the accuracy of the system. However, the computationally expensive CIM's stochastic differential equations (SDEs) limit the use of digital hardware implementations. As an alternative to Gunathilaka et al.'s CIM SDEs used previously, we propose using the mean-field CIM (MF-CIM) model, which is a physics-inspired heuristic solver without quantum noise. MF-CIM surmounts the high computational cost due to the simple nature of the differential equations (DEs). Furthermore, our results indicate that the proposed model has similar performance to physically accurate SDEs in both artificial and magnetic resonance imaging data, paving the way for implementing CIM-based L0RBCS on digital hardware such as Field Programmable Gate Arrays (FPGAs).
翻訳日:2024-05-02 16:17:22 公開日:2024-05-01
# テキストデータ操作のための距離サンプリング型パラフラワーレバレッジChatGPT

Distance Sampling-based Paraphraser Leveraging ChatGPT for Text Data Manipulation ( http://arxiv.org/abs/2405.00367v1 )

ライセンス: Link先を確認
Yoori Oh, Yoseob Han, Kyogu Lee, (参考訳) 音声検索研究への関心が高まっており、音声とテキストのモダリティの相関を確立することを目的としている。 しかしながら、ほとんどのオーディオテキストとペアのデータセットは、オーディオサンプルと比較してテキストデータのリッチな表現を欠いていることが多い。 オーディオテキストデータセットが直面する重要な課題の1つは、異なるオーディオサンプルにもかかわらず、類似または同一のキャプションが存在することである。 したがって、多対一のマッピング条件下では、音声テキストデータセットは検索タスクの性能が劣る。 本稿では,音声検索タスクにおけるデータ不均衡問題に対処する新しい手法を提案する。 この制限を克服するために,ChatGPTを利用した距離サンプリングに基づくパラフレーズを用いた距離関数を用いて,操作されたテキストデータの制御可能な分布を生成する手法を提案する。 同じ文脈の文の集合に対して、距離は任意の2つの文に対する操作の度合いを計算するために使用され、ChatGPTの数発のプロンプトは、ジャカード類似性によって定義される同様の距離のテキストクラスタを用いて実行される。 したがって、ChatGPTは、テキストクラスタによる少数ショットプロンプトに適用された場合、その距離に基づいて操作されたテキストの多様性を調整することができる。 提案手法は音声テキスト検索の性能を大幅に向上させ,従来のテキスト拡張手法よりも優れていた。

There has been growing interest in audio-language retrieval research, where the objective is to establish the correlation between audio and text modalities. However, most audio-text paired datasets often lack rich expression of the text data compared to the audio samples. One of the significant challenges facing audio-text datasets is the presence of similar or identical captions despite different audio samples. Therefore, under many-to-one mapping conditions, audio-text datasets lead to poor performance of retrieval tasks. In this paper, we propose a novel approach to tackle the data imbalance problem in audio-language retrieval task. To overcome the limitation, we introduce a method that employs a distance sampling-based paraphraser leveraging ChatGPT, utilizing distance function to generate a controllable distribution of manipulated text data. For a set of sentences with the same context, the distance is used to calculate a degree of manipulation for any two sentences, and ChatGPT's few-shot prompting is performed using a text cluster with a similar distance defined by the Jaccard similarity. Therefore, ChatGPT, when applied to few-shot prompting with text clusters, can adjust the diversity of the manipulated text based on the distance. The proposed approach is shown to significantly enhance performance in audio-text retrieval, outperforming conventional text augmentation techniques.
翻訳日:2024-05-02 16:17:22 公開日:2024-05-01
# 半監督型医用画像分割のための適応的双方向置換法

Adaptive Bidirectional Displacement for Semi-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2405.00378v1 )

ライセンス: Link先を確認
Hanyang Chi, Jian Pang, Bingfeng Zhang, Weifeng Liu, (参考訳) 一貫性学習は、半教師付き医療画像セグメンテーション(SSMIS)におけるラベルなしデータに対処する中心的な戦略であり、摂動下で一貫した予測をモデルに強制する。 しかし、現在のほとんどのアプローチは、限られたケースにしか対応できない特定の単一摂動の利用にのみ焦点をあてているが、同時に複数の摂動を採用することは、一貫性学習の品質を保証するのは難しい。 本稿では,この課題を解決するための適応的双方向変位(ABD)手法を提案する。 具体的には、まず、ラベルのないデータに対する信頼性の高い予測信頼度に基づいて双方向のパッチ変位を設計し、新しいサンプルを生成し、制御不能な領域を効果的に抑制し、入力摂動の影響を継続する。 一方、ラベル付き画像に対して、潜在的に制御不能な内容の学習を強制するために、より信頼できない情報を持つサンプルを生成し、モデル学習を容易にする双方向変位操作を提案する。 大規模な実験により、ABDはSSMISの新たな最先端性能を実現し、異なるベースラインを著しく改善した。 ソースコードはhttps://github.com/chy-upc/ABD.comで入手できる。

Consistency learning is a central strategy to tackle unlabeled data in semi-supervised medical image segmentation (SSMIS), which enforces the model to produce consistent predictions under the perturbation. However, most current approaches solely focus on utilizing a specific single perturbation, which can only cope with limited cases, while employing multiple perturbations simultaneously is hard to guarantee the quality of consistency learning. In this paper, we propose an Adaptive Bidirectional Displacement (ABD) approach to solve the above challenge. Specifically, we first design a bidirectional patch displacement based on reliable prediction confidence for unlabeled data to generate new samples, which can effectively suppress uncontrollable regions and still retain the influence of input perturbations. Meanwhile, to enforce the model to learn the potentially uncontrollable content, a bidirectional displacement operation with inverse confidence is proposed for the labeled images, which generates samples with more unreliable information to facilitate model learning. Extensive experiments show that ABD achieves new state-of-the-art performances for SSMIS, significantly improving different baselines. Source code is available at https://github.com/chy-upc/ABD.
翻訳日:2024-05-02 16:17:22 公開日:2024-05-01
# 量子力学の次元のマルチパスおよびマルチパーティクル試験

Multi-Path and Multi-Particle Tests of the Dimensionality of Quantum Mechanics ( http://arxiv.org/abs/2405.00380v1 )

ライセンス: Link先を確認
Ece İpek Saruhan, Joachim von Zanthier, Marc-Oliver Pleinert, (参考訳) 量子力学の公理は、基底数系のようなヒルベルト空間の構造に関する限られた情報を与える。 後者は一般に複素数と見なされるが、複素数(いわゆる超複素数)の一般化は理論上は決定できない。 したがって、超複素量子力学のテストを行うための特別な実験が必要である。 現在、実験はペレス試験と呼ばれる3経路干渉において閉じた位相関係を利用する単一粒子干渉に限られている。 本研究では、ペレス検定を導出するエレガントな行列形式を数学的根拠として明らかにする。 そこで本研究では,量子力学の数値系の次元性を直接探究する多経路干渉試験と多粒子干渉試験を導入する。

The axioms of quantum mechanics provide limited information regarding the structure of the Hilbert space, such as the underlying number system. The latter is generally regarded as complex, but generalizations of complex numbers, so-called hyper-complex numbers, cannot be ruled out in theory. Therefore, specialized experiments to test for hyper-complex quantum mechanics are needed. To date, experimental tests are limited to single-particle interference exploiting a closed phase relation in three-path interference called the Peres test. In this work, we reveal an elegant matrix formalism to derive the Peres test putting it on a solid mathematical ground. On this basis, we introduce multi-path and multi-particle interference tests, which provide a direct probe for the dimensionality of the number system of quantum mechanics.
翻訳日:2024-05-02 16:17:22 公開日:2024-05-01
# 映像における不一致検出のための映像・音声シーンの分類--ベースライン法と実験プロトコル

Visual and audio scene classification for detecting discrepancies in video: a baseline method and experimental protocol ( http://arxiv.org/abs/2405.00384v1 )

ライセンス: Link先を確認
Konstantinos Apostolidis, Jakob Abesser, Luca Cuccovillo, Vasileios Mezaris, (参考訳) 本稿では,マルチメディアコンテンツにおける音声とビデオのモダリティの相違を検知する,特定のコンテンツ検証問題に対するベースラインアプローチと実験プロトコルを提案する。 まず、両モードを用いた既存の分類基準と比較するため、音声視覚シーン分類器を設計、最適化する。 そして、この分類器を音声と視覚的モダリティに別々に適用することにより、それらの間のシーンクラスの不整合を検出することができる。 さらなる研究を容易にし、共通評価プラットフォームを提供するために、このような矛盾をシミュレートする実験的なプロトコルとベンチマークデータセットを導入する。 提案手法は,映像の視覚的不一致検出におけるシーン分類と有望な結果における最先端の成果を達成し,コンテンツ検証アプリケーションにおけるその可能性を強調した。

This paper presents a baseline approach and an experimental protocol for a specific content verification problem: detecting discrepancies between the audio and video modalities in multimedia content. We first design and optimize an audio-visual scene classifier, to compare with existing classification baselines that use both modalities. Then, by applying this classifier separately to the audio and the visual modality, we can detect scene-class inconsistencies between them. To facilitate further research and provide a common evaluation platform, we introduce an experimental protocol and a benchmark dataset simulating such inconsistencies. Our approach achieves state-of-the-art results in scene classification and promising outcomes in audio-visual discrepancies detection, highlighting its potential in content verification applications.
翻訳日:2024-05-02 16:17:22 公開日:2024-05-01
# 変分ベイズ法によるガウスの木の構造化スティック-ブレーキング過程の混合

Variational Bayesian Methods for a Tree-Structured Stick-Breaking Process Mixture of Gaussians ( http://arxiv.org/abs/2405.00385v1 )

ライセンス: Link先を確認
Yuta Nakahara, (参考訳) 文脈木源のベイズ符号化アルゴリズムは、情報理論におけるテキスト圧縮におけるベイズ木推定の成功例である。 このアルゴリズムは、後方木分布の効率的なパラメトリック表現とパラメータの正確な更新を提供する。 このアルゴリズムを機械学習のクラスタリングタスクに適用する。 具体的には,木構造棒破砕過程 (TS-SBP) のベイズ推定に適用する。 TS-SBP混合モデルでは、マルコフ連鎖モンテカルロ法のみが提案されているが、変分ベイズ法はまだ提案されていない。 本稿では,文脈木源に対するベイズ符号化アルゴリズムに類似したサブルーチンを持つ変分ベイズ手法を提案する。 おもちゃの例における数値実験により,その挙動を確認した。

The Bayes coding algorithm for context tree source is a successful example of Bayesian tree estimation in text compression in information theory. This algorithm provides an efficient parametric representation of the posterior tree distribution and exact updating of its parameters. We apply this algorithm to a clustering task in machine learning. More specifically, we apply it to Bayesian estimation of the tree-structured stick-breaking process (TS-SBP) mixture models. For TS-SBP mixture models, only Markov chain Monte Carlo methods have been proposed so far, but any variational Bayesian methods have not been proposed yet. In this paper, we propose a variational Bayesian method that has a subroutine similar to the Bayes coding algorithm for context tree sources. We confirm its behavior by a numerical experiment on a toy example.
翻訳日:2024-05-02 16:17:22 公開日:2024-05-01
# HAPS支援ネットワークにおけるセルスイッチング : 交通負荷の異常が決定にどう影響するか

Cell Switching in HAPS-Aided Networking: How the Obscurity of Traffic Loads Affects the Decision ( http://arxiv.org/abs/2405.00387v1 )

ライセンス: Link先を確認
Berk Çiloğlu, Görkem Berkay Koç, Metin Ozturk, Halim Yanikomeroglu, (参考訳) 本研究では,高高度プラットフォーム局(HAPS)に特有なセルスイッチングアプローチのセル負荷推定問題を導入することを目的とする。 この問題は、次の時間帯における睡眠基地局の交通負荷が完全には分かっていないが、むしろ推定可能であり、任意の推定誤差が最適決定から分岐し、エネルギー効率に影響を及ぼすという事実から生じる。 スイッチング決定が現在の時間帯で積極的に行われるため、次の時間帯の睡眠基地局の交通負荷が要求される。 2つの異なるQ-ラーニングアルゴリズムが開発され、1つはフルスケールで、パフォーマンスのみに重点を置いており、もう1つは軽量で計算コストに対処している。 その結果、推定誤差はセル切替決定を変更でき、非エラーシナリオと比較して性能のばらつきが生じることを確認した。 さらに,これらのアルゴリズムと最適アルゴリズムの差(0.3%)が観測されているため,Q-ラーニングアルゴリズムの性能は良好である。

This study aims to introduce the cell load estimation problem of cell switching approaches in cellular networks specially-presented in a high-altitude platform station (HAPS)-assisted network. The problem arises from the fact that the traffic loads of sleeping base stations for the next time slot cannot be perfectly known, but they can rather be estimated, and any estimation error could result in divergence from the optimal decision, which subsequently affects the performance of energy efficiency. The traffic loads of the sleeping base stations for the next time slot are required because the switching decisions are made proactively in the current time slot. Two different Q-learning algorithms are developed; one is full-scale, focusing solely on the performance, while the other one is lightweight and addresses the computational cost. Results confirm that the estimation error is capable of changing cell switching decisions that yields performance divergence compared to no-error scenarios. Moreover, the developed Q-learning algorithms perform well since an insignificant difference (i.e., 0.3%) is observed between them and the optimum algorithm.
翻訳日:2024-05-02 16:17:22 公開日:2024-05-01
# 自律型HVACシステムの訓練におけるフェデレーションラーニングの活用

Employing Federated Learning for Training Autonomous HVAC Systems ( http://arxiv.org/abs/2405.00389v1 )

ライセンス: Link先を確認
Fredrik Hagström, Vikas Garg, Fabricio Oliveira, (参考訳) ビルは世界のエネルギー消費の40%を占めている。 建設エネルギー消費のかなりの部分は、暖房、換気、空調(HVAC)に起因するため、スマートでエネルギー効率のよいHVACシステムを実装することは、気候変動の進行に大きな影響を与える可能性がある。 近年、モデルなし強化学習アルゴリズムは、経験から純粋に学習し適応する能力のために、この目的のためにますます評価されている。 それらは、エネルギーコストと消費、および熱的快適性の点で古典的なコントローラーよりも優れていることが示されている。 しかし、その弱点はデータ効率の低さにあるため、許容できるポリシーに到達するためには長期間のトレーニングが必要であり、現実世界のコントローラに直接適用できない。 したがって、一般的な研究目標は、学習速度の向上と、その一般化能力の向上であり、見当たらない建築環境への学習の移行を容易にすることである。 本稿では,HVACシステムの強化学習制御を訓練するために,連合学習アプローチを採用する。 グローバルコントロールポリシは、異なる気候圏に位置する複数のデータセンタでトレーニングされたローカルポリシを集約することによって学習される。 この政策の目標は、エネルギー消費を同時に最小化し、熱的快適性を最大化することである。 フェデレーション最適化戦略は、経験データが収集される率とデータの変動の両方を間接的に増加させる。 実験により,これらの効果が学習速度の向上につながること,および,個別に訓練された政策と比較して,連合政策における一般化能力の向上を実証した。

Buildings account for 40 % of global energy consumption. A considerable portion of building energy consumption stems from heating, ventilation, and air conditioning (HVAC), and thus implementing smart, energy-efficient HVAC systems has the potential to significantly impact the course of climate change. In recent years, model-free reinforcement learning algorithms have been increasingly assessed for this purpose due to their ability to learn and adapt purely from experience. They have been shown to outperform classical controllers in terms of energy cost and consumption, as well as thermal comfort. However, their weakness lies in their relatively poor data efficiency, requiring long periods of training to reach acceptable policies, making them inapplicable to real-world controllers directly. Hence, common research goals are to improve the learning speed, as well as to improve their ability to generalize, in order to facilitate transfer learning to unseen building environments. In this paper, we take a federated learning approach to training the reinforcement learning controller of an HVAC system. A global control policy is learned by aggregating local policies trained on multiple data centers located in different climate zones. The goal of the policy is to simultaneously minimize energy consumption and maximize thermal comfort. The federated optimization strategy indirectly increases both the rate at which experience data is collected and the variation in the data. We demonstrate through experimental evaluation that these effects lead to a faster learning speed, as well as greater generalization capabilities in the federated policy compared to any individually trained policy.
翻訳日:2024-05-02 16:17:22 公開日:2024-05-01
# CofiPara: 大規模マルチモーダルモデルを用いたマルチモーダルサルカズムターゲット同定のための粗粒パラダイム

CofiPara: A Coarse-to-fine Paradigm for Multimodal Sarcasm Target Identification with Large Multimodal Models ( http://arxiv.org/abs/2405.00390v1 )

ライセンス: Link先を確認
Hongzhan Lin, Zixin Chen, Ziyang Luo, Mingfei Cheng, Jing Ma, Guang Chen, (参考訳) ソーシャルメディアはマルチモーダル・サルカズムに満ちており、テキストや画像のモダリティで直接明らかでない暗黙の矛盾のため、サルカズムの標的を特定することは特に困難である。 マルチモーダルサルカズムターゲット同定(MSTI)の現在の手法は、主に、テキストと画像の両方を通して伝達されるマルチモーダルサルカズムの微妙な理解を見越して、端から端まで、表面的な指標に焦点を当てている。 本稿では,大きめのパラダイムを持つ多目的MSTIフレームワークを提案する。 マルチモーダル推論におけるLMM(Large Multimodal Models)の強力な能力に着想を得て、まずLMMに取り組み、マルチモーダルサルカズム検出における小言語モデルの粗粒化事前学習のための競合する有理性を生成する。 次に、よりきめ細かな目標同定のためのモデルを微調整する。 そこで,本研究の枠組みは,マルチモーダルサルカズム内での複雑な目標を十分に明らかにし,LMMの潜在的なノイズによる負の影響を緩和するものである。 実験の結果,我々のモデルは最先端のMSTI法よりも優れており,また,サルカズムの解読における説明可能性も顕著であることがわかった。

Social media abounds with multimodal sarcasm, and identifying sarcasm targets is particularly challenging due to the implicit incongruity not directly evident in the text and image modalities. Current methods for Multimodal Sarcasm Target Identification (MSTI) predominantly focus on superficial indicators in an end-to-end manner, overlooking the nuanced understanding of multimodal sarcasm conveyed through both the text and image. This paper proposes a versatile MSTI framework with a coarse-to-fine paradigm, by augmenting sarcasm explainability with reasoning and pre-training knowledge. Inspired by the powerful capacity of Large Multimodal Models (LMMs) on multimodal reasoning, we first engage LMMs to generate competing rationales for coarser-grained pre-training of a small language model on multimodal sarcasm detection. We then propose fine-tuning the model for finer-grained sarcasm target identification. Our framework is thus empowered to adeptly unveil the intricate targets within multimodal sarcasm and mitigate the negative impact posed by potential noise inherently in LMMs. Experimental results demonstrate that our model far outperforms state-of-the-art MSTI methods, and markedly exhibits explainability in deciphering sarcasm as well.
翻訳日:2024-05-02 16:17:22 公開日:2024-05-01
# De)Randomized Smoothingによる機械学習型マルウェア検出器の認証逆ロバスト性

Certified Adversarial Robustness of Machine Learning-based Malware Detectors via (De)Randomized Smoothing ( http://arxiv.org/abs/2405.00392v1 )

ライセンス: Link先を確認
Daniel Gibert, Luca Demetrio, Giulio Zizzo, Quan Le, Jordi Planes, Battista Biggio, (参考訳) ディープラーニングベースのマルウェア検出システムは、敵のEXEmplesに対して脆弱である。 そのため、コミュニティは敵のEXEmplesに対抗するためのメカニズムの開発に力を注いでいる。 しかし、現在のランダム化スムースティングベースの防御は、敵コンテンツのブロックを注入する攻撃に対して依然として脆弱である。 本稿では,ある実行可能かつ敵のパッチサイズに対して,敵のEXEmpleが存在しないことを保証した,パッチ攻撃に対する認証された防御法を提案する。 提案手法は, 決定論的ロバスト性証明を提供する (de)randomized smoothing に着想を得たものである。 トレーニング中、ベース分類器は連続したバイトのサブセットを使用して訓練される。 予測時には、実行可能ファイルを重複しないチャンクに分割し、各チャンクを独立に分類し、多数決によって最終予測を計算し、注入されたコンテンツの影響を最小限に抑える。 さらに、セクションとヘッダのサイズをチャンクサイズの倍に修正する前処理ステップを導入する。 その結果、インジェクションされたコンテンツは、入力例の実際のバイトを含む他のチャンクを改ざんすることなく、整数数のチャンクに制限され、コンテンツ挿入攻撃に対する認証された堅牢性を保証することができる。 我々は,多数のコンテンツ操作攻撃やニューラルネットワークアーキテクチャに対する無作為なスムーズな防御と,我々の防衛を比較して,広範囲にわたるアブレーション研究を行う。 その結果,本手法は,強いコンテンツ挿入攻撃に対する不整合性を示し,ランダムなスムースティングに基づく防御性能に優れていた。

Deep learning-based malware detection systems are vulnerable to adversarial EXEmples - carefully-crafted malicious programs that evade detection with minimal perturbation. As such, the community is dedicating effort to develop mechanisms to defend against adversarial EXEmples. However, current randomized smoothing-based defenses are still vulnerable to attacks that inject blocks of adversarial content. In this paper, we introduce a certifiable defense against patch attacks that guarantees, for a given executable and an adversarial patch size, no adversarial EXEmple exist. Our method is inspired by (de)randomized smoothing which provides deterministic robustness certificates. During training, a base classifier is trained using subsets of continguous bytes. At inference time, our defense splits the executable into non-overlapping chunks, classifies each chunk independently, and computes the final prediction through majority voting to minimize the influence of injected content. Furthermore, we introduce a preprocessing step that fixes the size of the sections and headers to a multiple of the chunk size. As a consequence, the injected content is confined to an integer number of chunks without tampering the other chunks containing the real bytes of the input examples, allowing us to extend our certified robustness guarantees to content insertion attacks. We perform an extensive ablation study, by comparing our defense with randomized smoothing-based defenses against a plethora of content manipulation attacks and neural network architectures. Results show that our method exhibits unmatched robustness against strong content-insertion attacks, outperforming randomized smoothing-based defenses in the literature.
翻訳日:2024-05-02 16:17:22 公開日:2024-05-01
# 大規模Langeuageモデルによるプロトコル実装からの状態マシンの推論

Inferring State Machine from the Protocol Implementation via Large Langeuage Model ( http://arxiv.org/abs/2405.00393v1 )

ライセンス: Link先を確認
Haiyang Wei, Zhengjie Du, Haohui Huang, Yue Liu, Guang Cheng, Linzhang Wang, Bing Mao, (参考訳) ステートマシンは、より多くの脆弱性を公開するためのプロトコル分析の有効性を高める上で、重要な役割を果たす。 しかし、ネットワークプロトコルの実装からステートマシンを推論する作業は、大きな課題を呈している。 静的解析は複雑なコード構造や振る舞いで困難に直面しているのに対して、動的解析に基づく従来の手法は、カバー範囲が限られているため重要な状態遷移を見落としていることが多い。 これらの制約に対処するため,Large Language Models (LLMs) を利用した革新的な状態マシン推論手法を提案する。 テキスト埋め込み技術を利用することで、LLMはプロトコル実装コードの複雑さを識別し分析することができる。 ターゲットとなるプロンプトエンジニアリングを通じて、基礎となる状態マシンを体系的に同定し、推測する。 提案手法は,6つのプロトコル実装に対して高い有効性を示し,90%を超える精度を実現し,同一プロトコルの各種実装間の状態マシンの差異を導出することに成功した。 重要なことに、このアプローチをプロトコルファジィングと統合することで、AFLNetのコードカバレッジをRFCNLPよりも10%向上させ、ネットワークプロトコルのセキュリティ分析の進歩におけるLLMの潜在可能性を示している。 提案手法は, 精度の高い状態マシン推論において重要な一歩を踏み出すだけでなく, プロトコル実装のセキュリティと信頼性向上のための新たな道を開く。

State machines play a pivotal role in augmenting the efficacy of protocol analyzing to unveil more vulnerabilities. However, the task of inferring state machines from network protocol implementations presents significant challenges. Traditional methods based on dynamic analysis often overlook crucial state transitions due to limited coverage, while static analysis faces difficulties with complex code structures and behaviors. To address these limitations, we propose an innovative state machine inference approach powered by Large Language Models (LLMs). Utilizing text-embedding technology, this method allows LLMs to dissect and analyze the intricacies of protocol implementation code. Through targeted prompt engineering, we systematically identify and infer the underlying state machines. Our evaluation across six protocol implementations demonstrates the method's high efficacy, achieving an accuracy rate exceeding 90% and successfully delineating differences on state machines among various implementations of the same protocol. Importantly, integrating this approach with protocol fuzzing has notably enhanced AFLNet's code coverage by 10% over RFCNLP, showcasing the considerable potential of LLMs in advancing network protocol security analysis. Our proposed method not only marks a significant step forward in accurate state machine inference but also opens new avenues for improving the security and reliability of protocol implementations.
翻訳日:2024-05-02 16:07:30 公開日:2024-05-01
# データリッチスマートシティのためのフェデレーション学習における相互信頼感の促進

Enhancing Mutual Trustworthiness in Federated Learning for Data-Rich Smart Cities ( http://arxiv.org/abs/2405.00394v1 )

ライセンス: Link先を確認
Osama Wehbi, Sarhad Arisdakessian, Mohsen Guizani, Omar Abdel Wahab, Azzam Mourad, Hadi Otrok, Hoda Al khzaimi, Bassem Ouni, (参考訳) フェデレーション学習は、データリッチなスマートシティにおける、コラボレーションとプライバシ保護を約束する機械学習アプローチである。 それでも、これらの都市環境の固有の異質性は、協調モデルトレーニングにおいて信頼できるクライアントを選択する上で大きな課題となる。 ランダムなクライアント選択技術のような従来のアプローチの使用は、悪意のあるクライアント選択の可能性のため、システムの完全性にいくつかの脅威をもたらす。 既存の文献は、クライアントの信頼性を評価し、フェデレートされたサーバにおける信頼の重要な側面を無視している。 このギャップを埋めるため,本研究では,クライアントとサーバの信頼関係を考慮し,連携学習における相互信頼度に対処する新しい枠組みを提案する。 提案手法では,(1) サーバとクライアントの選好関数の作成,(2) 信頼スコアに基づいて相互にランク付けを行うこと,(2) 新しく接続されたサーバを評価するために複数のクライアントを活用する評判に基づく推薦システムを確立すること,(3) 信頼度スコアをサーバの信頼性測定に推奨するデバイスに割り当てること,(4) スマートデバイスの信頼度評価機構を統計的インタークアタイルレンジ(IQR)法を用いて開発すること,(5) 双方の選好を考慮したインテリジェントマッチングアルゴリズムの設計。 シミュレーションと実験結果に基づいて,信頼度の向上,グローバルモデル精度の向上,信頼できないクライアントの削減などにより,ベースライン手法よりも優れた性能を示す。

Federated learning is a promising collaborative and privacy-preserving machine learning approach in data-rich smart cities. Nevertheless, the inherent heterogeneity of these urban environments presents a significant challenge in selecting trustworthy clients for collaborative model training. The usage of traditional approaches, such as the random client selection technique, poses several threats to the system's integrity due to the possibility of malicious client selection. Primarily, the existing literature focuses on assessing the trustworthiness of clients, neglecting the crucial aspect of trust in federated servers. To bridge this gap, in this work, we propose a novel framework that addresses the mutual trustworthiness in federated learning by considering the trust needs of both the client and the server. Our approach entails: (1) Creating preference functions for servers and clients, allowing them to rank each other based on trust scores, (2) Establishing a reputation-based recommendation system leveraging multiple clients to assess newly connected servers, (3) Assigning credibility scores to recommending devices for better server trustworthiness measurement, (4) Developing a trust assessment mechanism for smart devices using a statistical Interquartile Range (IQR) method, (5) Designing intelligent matching algorithms considering the preferences of both parties. Based on simulation and experimental results, our approach outperforms baseline methods by increasing trust levels, global model accuracy, and reducing non-trustworthy clients in the system.
翻訳日:2024-05-02 16:07:30 公開日:2024-05-01
# フェデレートラーニングにおけるクライアントデプロイメントのための信頼駆動型オンデマンドスキーム

Trust Driven On-Demand Scheme for Client Deployment in Federated Learning ( http://arxiv.org/abs/2405.00395v1 )

ライセンス: Link先を確認
Mario Chahoud, Azzam Mourad, Hadi Otrok, Jamal Bentahar, Mohsen Guizani, (参考訳) コンテナ化技術は、フェデレートラーニング(FL)のセットアップにおいて重要な役割を担い、潜在的なクライアントのプールを拡大し、学習イテレーション毎に特定のサブセットが確実に利用可能になる。 しかしながら、FLシナリオのクライアントとしてデプロイされるデバイスの信頼性について、特にコンテナデプロイメントプロセスが関与する場合に疑問が生じる。 これらの課題に対処することは、特に学習プロセスを破壊したり、モデル全体を複雑化する可能性のある、潜在的に悪意のあるクライアントを管理する上で重要である。 本研究は,システムアーキテクチャにおけるクライアント選択とモデル展開プロセスに信頼要素を統合することを目的としている。 これはOn-Demandアーキテクチャの初期クライアント選択とデプロイメカニズムに欠けている機能である。 本稿では,サーバとクライアントのプール間の信頼関係を確立するためのトラスト・オン・デマンド・FL(Trusted-On-Demand-FL)という信頼メカニズムを導入する。 デプロイメント戦略にDockerを活用することで、参加者のアクションを効果的に監視し、検証することが可能になります。 シミュレーションでは,遺伝的アルゴリズムをベースとした最適化モデルを構築し,クライアントの参加を効率的に選択する。 信頼度を個々のクライアントに割り当て、それらの値を動的に調整し、信頼度を下げて悪質なクライアントを罰することで、有害なクライアントを識別・隔離する。 このアプローチは、通常のラウンドへのディスラプションを減らすだけでなく、ラウンド解雇の事例を最小限に抑え、システムの安定性とセキュリティを向上する。

Containerization technology plays a crucial role in Federated Learning (FL) setups, expanding the pool of potential clients and ensuring the availability of specific subsets for each learning iteration. However, doubts arise about the trustworthiness of devices deployed as clients in FL scenarios, especially when container deployment processes are involved. Addressing these challenges is important, particularly in managing potentially malicious clients capable of disrupting the learning process or compromising the entire model. In our research, we are motivated to integrate a trust element into the client selection and model deployment processes within our system architecture. This is a feature lacking in the initial client selection and deployment mechanism of the On-Demand architecture. We introduce a trust mechanism, named "Trusted-On-Demand-FL", which establishes a relationship of trust between the server and the pool of eligible clients. Utilizing Docker in our deployment strategy enables us to monitor and validate participant actions effectively, ensuring strict adherence to agreed-upon protocols while strengthening defenses against unauthorized data access or tampering. Our simulations rely on a continuous user behavior dataset, deploying an optimization model powered by a genetic algorithm to efficiently select clients for participation. By assigning trust values to individual clients and dynamically adjusting these values, combined with penalizing malicious clients through decreased trust scores, our proposed framework identifies and isolates harmful clients. This approach not only reduces disruptions to regular rounds but also minimizes instances of round dismissal, Consequently enhancing both system stability and security.
翻訳日:2024-05-02 16:07:30 公開日:2024-05-01
# 小型移動量子センシングのためのデュアルオープン原子干渉計

A Dual Open Atom Interferometer for Compact, Mobile Quantum Sensing ( http://arxiv.org/abs/2405.00400v1 )

ライセンス: Link先を確認
Yosri Ben-Aïcha, Zain Mehdi, Christian Freier, Stuart S. Szigeti, Paul B. Wigley, Lorcán O. Conlon, Ryan Husband, Samuel Legge, Rhys H. Eagle, Joseph J. Hope, Nicholas P. Robins, John D. Close, Kyle S. Hardman, Simon A. Haine, Ryan J. Thomas, (参考訳) 動的プラットフォーム上での動作に適合する原子干渉計測定プロトコルを実証する。 提案手法では,同じ原子源から導出される2つのオープン干渉計を用いて,精度,精度,長期安定性を保ちながら,初期速度依存性を除去する。 重力波を計測し,2000年に4.5 {\mu}Galの精度を達成し,長期間の位相安定性を実現するオープン原子干渉計による慣性量測定の最初の実証を行った。

We demonstrate an atom interferometer measurement protocol compatible with operation on a dynamic platform. Our method employs two open interferometers, derived from the same atomic source, with different interrogation times to eliminate initial velocity dependence while retaining precision, accuracy, and long term stability. We validate the protocol by measuring gravitational tides, achieving a precision of 4.5 {\mu}Gal in 2000 runs, marking the first demonstration of inertial quantity measurement with open atom interferometry that achieves long-term phase stability.
翻訳日:2024-05-02 16:07:30 公開日:2024-05-01
# SELFIESを用いた多目的進化アルゴリズムによる薬物設計の最適化

Optimized Drug Design using Multi-Objective Evolutionary Algorithms with SELFIES ( http://arxiv.org/abs/2405.00401v1 )

ライセンス: Link先を確認
Tomoya Hömberg, Sanaz Mostaghim, Satoru Hiwa, Tomoyuki Hiroyasu, (参考訳) コンピュータ・エイズド・ドラッグ・デザインは、新しい医薬品を開発するための膨大なコスト、すなわち時間と資源を削減するための有望なアプローチである。 これは、潜在的に有用な化合物の広大な化学空間の移動を支援するために応用される。 本稿では,この目的のために,多目的進化アルゴリズム,NSGA-II,NSGA-III,MOEA/Dをデプロイする。 同時に,SELFIES文字列表現法を用いた。 QEDとSAのスコアに加えて、GuacaMolベンチマークの多目的タスクセットを用いて化合物を最適化する。 以上の結果から, 3つのアルゴリズムはいずれも収束挙動を示し, 定義基準の最適化に成功していることがわかった。 パレート集合において得られた化合物のうち、新規で有望な合成候補が発見されている。

Computer aided drug design is a promising approach to reduce the tremendous costs, i.e. time and resources, for developing new medicinal drugs. It finds application in aiding the traversal of the vast chemical space of potentially useful compounds. In this paper, we deploy multi-objective evolutionary algorithms, namely NSGA-II, NSGA-III, and MOEA/D, for this purpose. At the same time, we used the SELFIES string representation method. In addition to the QED and SA score, we optimize compounds using the GuacaMol benchmark multi-objective task sets. Our results indicate that all three algorithms show converging behavior and successfully optimize the defined criteria whilst differing mainly in the number of potential solutions found. We observe that novel and promising candidates for synthesis are discovered among obtained compounds in the Pareto-sets.
翻訳日:2024-05-02 16:07:30 公開日:2024-05-01
# 言語モデルにおけるアライメント推論のための自己修正命令チューニング

Self-Refine Instruction-Tuning for Aligning Reasoning in Language Models ( http://arxiv.org/abs/2405.00402v1 )

ライセンス: Link先を確認
Leonardo Ranaldi, Andrè Freitas, (参考訳) 小さい言語モデルと大きい言語モデルの間の推論能力のアライメントは、堅牢なLarge Language Models (LLMs) から生成されたデモを使用して、スーパービジョンファインチューニング (SFT) を通して行われる。 これらのアプローチはより高性能なモデルを提供するが、トレーニングは提供された実演にのみ依存するため、十分に強力な一般化能力を示すものではない。 本稿では,より小さな言語モデルに自己表現能力を与える自己表現型指導手法を提案する。 提案手法は、まずLLMとSmall Language Models(SLM)間で、LLMが提供する実演のインストラクションチューニングを通じて推論能力の伝達を行い、その後、優先最適化戦略により、その能力を自己定義する2段階のプロセスに基づいている。 特に、第2フェーズは、直接選好最適化アルゴリズムに基づいて洗練されたヒューリスティックを演算し、SLMは、生成された応答を自動的にサンプリングし、LLMから基底真理を用いて報酬を与えることによって、一連の推論経路を導出する。 コモンセンスと数学の推論タスクで得られた結果は、このアプローチがドメイン内シナリオとドメイン外シナリオの両方でインストラクションチューニングを著しく上回り、より小さな言語モデルとより大きな言語モデルの推論能力を整合させることを示している。

The alignments of reasoning abilities between smaller and larger Language Models are largely conducted via Supervised Fine-Tuning (SFT) using demonstrations generated from robust Large Language Models (LLMs). Although these approaches deliver more performant models, they do not show sufficiently strong generalization ability as the training only relies on the provided demonstrations. In this paper, we propose the Self-refine Instruction-tuning method that elicits Smaller Language Models to self-refine their abilities. Our approach is based on a two-stage process, where reasoning abilities are first transferred between LLMs and Small Language Models (SLMs) via Instruction-tuning on demonstrations provided by LLMs, and then the instructed models Self-refine their abilities through preference optimization strategies. In particular, the second phase operates refinement heuristics based on the Direct Preference Optimization algorithm, where the SLMs are elicited to deliver a series of reasoning paths by automatically sampling the generated responses and providing rewards using ground truths from the LLMs. Results obtained on commonsense and math reasoning tasks show that this approach significantly outperforms Instruction-tuning in both in-domain and out-domain scenarios, aligning the reasoning abilities of Smaller and Larger Language Models.
翻訳日:2024-05-02 16:07:30 公開日:2024-05-01
# 純状態にインスパイアされた混合状態の無損失ポスト選択量子メトロロジー

Pure State Inspired Lossless Post-selected Quantum Metrology of Mixed States ( http://arxiv.org/abs/2405.00405v1 )

ライセンス: Link先を確認
Jing Yang, (参考訳) 未知のパラメータに依存する同一の純粋量子状態のアンサンブルが与えられると、最近、量子フィッシャー情報は、はるかに少ないサンプルのサブアンサンブルに損失なく圧縮できることが示されている。 しかし、混合状態への一般化は、直接的に克服することが難しい技術的挑戦につながる。 本研究では, ポストセレクト量子状態が変化していない間, 密度演算子のパラメトリック微分は, ポストセレクト成功確率の逆の平方根に等しい大因子で増幅される。 この観察は、ポストセレクトされた量子距離論の直観と本質を明らかにするだけでなく、混合状態の損失のないポストセレクションのための数学的にコンパクトな理論を開発できる。 混合状態の密度作用素のパラメトリック微分、あるいは対称対数微分が密度行列の支持により消滅すると、損失のない後選択は任意に大きな増幅係数で達成できる。 混合初期状態の超解像像像とユニタリ符号化の例を例に示す。 この結果は、デコヒーレンスの存在や、量子情報理論におけるいくつかの問題に対する基礎的関心の存在下での現実的なポストセレクト量子距離論に有用である。

Given an ensemble of identical pure quantum states that depend on an unknown parameter, recently it was shown that the quantum Fisher information can be losslessly compressed into a subensemble with a much smaller number of samples. However, generalization to mixed states leads to a technical challenge that is formidable to overcome directly. In this work, we avoid such technicality by unveiling the physics of a featured lossless post-selection measurement: while the post-selected quantum state is unchanged, the parametric derivative of the density operator is amplified by a large factor equal to the square root of the inverse of the post-selection success probability. This observation not only clarifies the intuition and essence of post-selected quantum metrology but also allows us to develop a mathematically compact theory for the lossless post-selection of mixed states. We find that if the parametric derivative of the density operator of a mixed state, or alternatively the symmetric logarithmic derivative, vanishes on the support of the density matrix, lossless post-selection can be achieved with an arbitrarily large amplification factor. We exemplify with the examples of superresolution imaging and unitary encoding of mixed initial states. Our results are useful for realistic post-selected quantum metrology in the presence of decoherence and of foundational interests to several problems in quantum information theory.
翻訳日:2024-05-02 16:07:30 公開日:2024-05-01
# UCBによる多目的強化学習のためのユーティリティ関数探索

UCB-driven Utility Function Search for Multi-objective Reinforcement Learning ( http://arxiv.org/abs/2405.00410v1 )

ライセンス: Link先を確認
Yucheng Shi, Alexandros Agapitos, David Lynch, Giorgio Cruciata, Hao Wang, Yayu Yao, Aleksandar Milenovic, (参考訳) MORL(Multi-objective Reinforcement Learning)エージェントでは、複数の、おそらく矛盾する、目的間のトレードオフを最適化する。 分解に基づくMORLは、多目的問題を個別の単目的問題に分解し、Paretoのポリシーを近似する。 重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。 本稿では,学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。 提案手法は,無作為種子間でのMujocoベンチマーク問題において,様々なMORLベースラインよりも優れた性能を示す。 コードは、https://github.com/SYCAMORE-1/ucb-MOPPO.comで公開されている。

In Multi-objective Reinforcement Learning (MORL) agents are tasked with optimising decision-making behaviours that trade-off between multiple, possibly conflicting, objectives. MORL based on decomposition is a family of solution methods that employ a number of utility functions to decompose the multi-objective problem into individual single-objective problems solved simultaneously in order to approximate a Pareto front of policies. We focus on the case of linear utility functions parameterised by weight vectors w. We introduce a method based on Upper Confidence Bound to efficiently search for the most promising weight vectors during different stages of the learning process, with the aim of maximising the hypervolume of the resulting Pareto front. The proposed method is shown to outperform various MORL baselines on Mujoco benchmark problems across different random seeds. The code is online at: https://github.com/SYCAMORE-1/ucb-MOPPO.
翻訳日:2024-05-02 16:07:30 公開日:2024-05-01
# 単一ジョセフソン接合部で自然発生したダウンコンバージョン光子の直接検出

Direct detection of down-converted photons spontaneously produced at a single Josephson junction ( http://arxiv.org/abs/2405.00411v1 )

ライセンス: Link先を確認
Dorian Fraudet, Izak Snyman, Denis M. Basko, Sébastien Léger, Théo Sépulcre, Arpit Ranadive, Gwenael Le Gal, Alba Torras-Coloma, Serge Florens, Nicolas Roch, (参考訳) 境界正弦-ゴルドン不純物モデルの超伝導量子シミュレータにおいて、強い非線形性によって引き起こされる多重光子への自然光子崩壊について検討した。 以前は、光子変換の分光学的シグネチャが報告され、これらの系の多体スペクトルの共鳴として証明されていた。 本稿では,高インピーダンス超伝導伝送線路に埋め込まれたジョセフソン接合部の多モード蛍光の観察について報告する。 ダウンコンバート光子の測定は、最先端のブロードバンドパラメトリック増幅器を用いて達成される。 光子三重項放出は、放射周波数の3倍の非弾性光子崩壊の相手として、所定の周波数で明確に示される。 これらの結果は、多体量子光学の急成長する分野のエキサイティングな展望を開き、超強光物質結合の直接的なサインを提供する。

We study spontaneous photon decay into multiple photons triggered by strong non-linearities in a superconducting quantum simulator of the boundary sine-Gordon impurity model. Previously, spectroscopic signatures of photon-conversion were reported and evidenced as resonances in the many-body spectrum of these systems. Here, we report on the observation of multi-mode fluorescence of a small Josephson junction embedded in a high impedance superconducting transmission line. Measurement of the down-converted photons is achieved using state-of-the-art broadband parametric amplifiers. Photon triplet emission is explicitly demonstrated at a given frequency as the counterpart of inelastic photon decay at three-times the emission frequency. These results open exciting prospects for the burgeoning field of many-body quantum optics and offer a direct signature of the ultra-strong light-matter coupling.
翻訳日:2024-05-02 16:07:30 公開日:2024-05-01
# 人工物に基づく規制要求工学の展開について

On Developing an Artifact-based Approach to Regulatory Requirements Engineering ( http://arxiv.org/abs/2405.00415v1 )

ライセンス: Link先を確認
Oleksandr Kosenkov, Michael Unterkalmsteiner, Jannik Fischbach, Daniel Mendez, Davide Fucci, Tony Gorschek, (参考訳) コンテキスト: 規制行為は要求を導き出し、解釈し、分析する上で難しい情報源です。 要件エンジニアは、しばしば法的専門家を巻き込む必要があるが、入手できない場合が多い。 これにより、規制要件エンジニアリング(RE)へのアプローチの必要性が高まり、法とエンジニアリングの両方の観点からカバーされ統合される。 問題: 規制的なREアプローチは、法的な観点から基本的な概念と関係を捕捉し、反映し、ソフトウェア要件を特定するために使用される概念へシームレスに移行する必要があります。 法的なドメイン知識の抽出と管理、エンジニアリングと法的な調整など、既存のアプローチは考慮していません。 方法: 規制REアプローチを確立する上での課題を明らかにするため, 法研究者と焦点グループセッションを行った。 そこで本研究では,提案手法を考案し,その実現可能性を評価するための最初の概念的検証を行った。 結果: 規制要件工学のためのアーティファクトモデル(AM4RRE)の第一版とその概念的基礎について紹介する。 法的(モデリング)の概念と確立されたRE概念を適用するための青写真を提供する。 最初の結果は、アーティファクト中心のREが、法的なドメイン知識とエンジニアリングと法的な調整を管理するために適用可能であることを示唆している。 結論: モデル構築の基盤として機能するフォーカスグループと,専門家による検証の結果はどちらも,法的概念をREに体系的に統合するための価値ある基盤をすでに提供している,という自信を強めています。 これは、規制REに対する現代の課題を克服し、ツール支援拡張の開発と大規模な経験的評価の実践を継続する前、コミュニティにおける批判的な議論への露出の基盤として機能する。

Context: Regulatory acts are a challenging source when eliciting, interpreting, and analyzing requirements. Requirements engineers often need to involve legal experts who, however, may often not be available. This raises the need for approaches to regulatory Requirements Engineering (RE) covering and integrating both legal and engineering perspectives. Problem: Regulatory RE approaches need to capture and reflect both the elementary concepts and relationships from a legal perspective and their seamless transition to concepts used to specify software requirements. No existing approach considers explicating and managing legal domain knowledge and engineering-legal coordination. Method: We conducted focus group sessions with legal researchers to identify the core challenges to establishing a regulatory RE approach. Based on our findings, we developed a candidate solution and conducted a first conceptual validation to assess its feasibility. Results: We introduce the first version of our Artifact Model for Regulatory Requirements Engineering (AM4RRE) and its conceptual foundation. It provides a blueprint for applying legal (modelling) concepts and well-established RE concepts. Our initial results suggest that artifact-centric RE can be applied to managing legal domain knowledge and engineering-legal coordination. Conclusions: The focus groups that served as a basis for building our model and the results from the expert validation both strengthen our confidence that we already provide a valuable basis for systematically integrating legal concepts into RE. This overcomes contemporary challenges to regulatory RE and serves as a basis for exposure to critical discussions in the community before continuing with the development of tool-supported extensions and large-scale empirical evaluations in practice.
翻訳日:2024-05-02 16:07:30 公開日:2024-05-01
# 開境界を持つ局所摂動位相符号における量子相転移の絡み合いと忠実度

Entanglement and fidelity across quantum phase transitions in locally perturbed topological codes with open boundaries ( http://arxiv.org/abs/2405.00416v1 )

ライセンス: Link先を確認
Harikrishnan K J, Amit Kumar Pal, (参考訳) 本研究では, 局所磁場による北エフ符号の位相-非トポロジカル量子相転移(QPTs)をプローブとして, アイシング型のスピンスピン相互作用と局所磁場による局所摂動下でのトポロジカル-非トポロジカル量子相転移(QPTs)について検討した。 コードは高さ$M$と周囲$D$と$M\llD$の広いシリンダーの表面に埋め込まれていると仮定する。 提案手法は,量子臨界点 (QCP) を有限スケールスケール解析により決定する。 量子モンテカルロ法を用いて, 摂動型北エブ符号を2次元イジングモデルに近似し, 近傍と近傍の相互作用を近似し, 単サイト磁化を秩序パラメータとして計算することにより, これらの結果を検証する。 また,システムにIsingの相互作用のみを摂動した場合に,KitaevのラウンダにおけるQPTの発生が$D$の奇数および偶数値に対して奇数に等しい二分法を指摘する。 また, 境界が一方向に開放された場合の局所摂動に対する北エフ符号の位相位相の強靭性も示唆した。 さらに,コードの垂直な非自明なループ上のローカライズ可能なエンタングルメントに対して,ローカライズ可能なエンタングルメントに限定した局所エンタングルメント証人演算子についても検討する。 証人演算子の期待値の第1微分はQPTの対数偏差を示し,有限スケールのスケーリング解析を行う。 オープンな境界を持つ局所摂動カラーコードにおいても、適切に構築された目撃者の期待値の類似した振る舞いを示す。

We investigate the topological-to-non-topological quantum phase transitions (QPTs) occurring in the Kitaev code under local perturbations in the form of local magnetic field and spin-spin interactions of the Ising-type using fidelity susceptibility (FS) and entanglement as the probes. We assume the code to be embedded on the surface of a wide cylinder of height $M$ and circumference $D$ with $M\ll D$. We demonstrate a power-law divergence of FS across the QPT, and determine the quantum critical points (QCPs) via a finite-size scaling analysis. We verify these results by mapping the perturbed Kitaev code to the 2D Ising model with nearest- and next-nearest-neighbor interactions, and computing the single-site magnetization as order parameter using quantum Monte-Carlo technique. We also point out an odd-even dichotomy in the occurrence of the QPT in the Kitaev ladder with respect to the odd and even values of $D$, when the system is perturbed with only Ising interaction. Our results also indicate a higher robustness of the topological phase of the Kitaev code against local perturbations if the boundary is made open along one direction. We further consider a local entanglement witness operator designed specifically to capture a lower bound to the localizable entanglement on the vertical non-trivial loop of the code. We show that the first derivative of the expectation value of the witness operator exhibits a logarithmic divergence across the QPT, and perform the finite-size scaling analysis. We demonstrate similar behaviour of the expectation value of the appropriately constructed witness operator also in the case of locally perturbed color code with open boundaries.
翻訳日:2024-05-02 16:07:30 公開日:2024-05-01
# 規則分類のためのコンフォーマルリスク制御

Conformal Risk Control for Ordinal Classification ( http://arxiv.org/abs/2405.00417v1 )

ライセンス: Link先を確認
Yunpeng Xu, Wenge Guo, Zhi Wei, (参考訳) 標準共形予測法の自然な拡張として、近年、様々な学習問題にいくつかの共形リスク制御法が開発され、適用されている。 本研究では,多くの実問題に適用可能な順序分類タスクの予測における共形リスクの制御を試みる。 本研究は,まず,共形リスク制御フレームワークにおける順序分類タスクを定式化し,リスク制御手法の理論的リスク境界を提供する。 そこで,2種類の損失関数を提案し,各ケースの予測セットを決定するアルゴリズムを開発し,それらのリスクを所望のレベルで制御した。 提案手法の有効性を実証し, シミュレーションデータセット, UTKFaceデータセット, 糖尿病網膜症検出データセットを含む3種類のデータセットにおける2種類のリスクの差異を解析した。

As a natural extension to the standard conformal prediction method, several conformal risk control methods have been recently developed and applied to various learning problems. In this work, we seek to control the conformal risk in expectation for ordinal classification tasks, which have broad applications to many real problems. For this purpose, we firstly formulated the ordinal classification task in the conformal risk control framework, and provided theoretic risk bounds of the risk control method. Then we proposed two types of loss functions specially designed for ordinal classification tasks, and developed corresponding algorithms to determine the prediction set for each case to control their risks at a desired level. We demonstrated the effectiveness of our proposed methods, and analyzed the difference between the two types of risks on three different datasets, including a simulated dataset, the UTKFace dataset and the diabetic retinopathy detection dataset.
翻訳日:2024-05-02 16:07:30 公開日:2024-05-01
# CNNモデルに基づくフェデレーション学習によるランサムウェア攻撃の検出

Detection of ransomware attacks using federated learning based on the CNN model ( http://arxiv.org/abs/2405.00418v1 )

ライセンス: Link先を確認
Hong-Nhung Nguyen, Ha-Thanh Nguyen, Damien Lescos, (参考訳) コンピュータは依然としてランサムウェアから重大な脅威を受けており、それを防ぐための迅速なアクションが必要である。 ランサムウェア攻撃はスマートグリッド、特にデジタルサブステーションに悪影響を及ぼす可能性がある。 本稿では,人工知能(AI)を用いたランサムウェア検出手法の検討に加えて,デジタルサブステーションの破壊動作をターゲットとしたランサムウェア攻撃モデリング手法を提案する。 まず、バイナリデータを画像データに変換し、フェデレーション学習を用いて畳み込みニューラルネットワークモデルに入力する。 実験の結果,提案手法はランサムウェアを高い精度で検出することがわかった。

Computing is still under a significant threat from ransomware, which necessitates prompt action to prevent it. Ransomware attacks can have a negative impact on how smart grids, particularly digital substations. In addition to examining a ransomware detection method using artificial intelligence (AI), this paper offers a ransomware attack modeling technique that targets the disrupted operation of a digital substation. The first, binary data is transformed into image data and fed into the convolution neural network model using federated learning. The experimental findings demonstrate that the suggested technique detects ransomware with a high accuracy rate.
翻訳日:2024-05-02 16:07:30 公開日:2024-05-01
# テキスト認識者の自己指導型事前学習

Self-supervised Pre-training of Text Recognizers ( http://arxiv.org/abs/2405.00420v1 )

ライセンス: Link先を確認
Martin Kišš, Michal Hradiš, (参考訳) 本稿では,文書テキスト認識のための自己教師付き事前学習手法について検討する。 今日では、テキスト認識を含む多くの研究タスクに対して、大きなラベルのないデータセットを収集することができるが、それらに注釈をつけるのはコストがかかる。 そのため、ラベルなしデータを利用した手法が研究されている。 マスク付きラベル予測に基づく自己教師付き事前学習手法について,特徴量化,VQ-VAE,ポスト量子化AEを用いて検討した。 また,VICRegとNT-Xentとの共同埋め込み手法について検討し,入力画像を完全に無視しながら位置符号化のみに依存したモデル崩壊を防止するための画像シフト手法を提案する。 注記対象ドメインデータの量が異なる自己教師型事前学習技術の利点を主に調査するため,歴史手書き(ベンサム)および歴史印刷データセットについて実験を行った。 私たちはトランスファーラーニングを強力なベースラインとして使用しています。 評価の結果,対象領域からのデータの自己教師付き事前学習は非常に効果的であるが,近縁領域からの移行学習よりも優れていることがわかった。 本論文は,文書テキスト認識における自己指導型事前学習を探求する最初の研究の1つであり,この領域における今後の研究の基盤となると信じている。 調査手法の実装をhttps://github.com/DCGM/pero-pretrainingで公開しました。

In this paper, we investigate self-supervised pre-training methods for document text recognition. Nowadays, large unlabeled datasets can be collected for many research tasks, including text recognition, but it is costly to annotate them. Therefore, methods utilizing unlabeled data are researched. We study self-supervised pre-training methods based on masked label prediction using three different approaches -- Feature Quantization, VQ-VAE, and Post-Quantized AE. We also investigate joint-embedding approaches with VICReg and NT-Xent objectives, for which we propose an image shifting technique to prevent model collapse where it relies solely on positional encoding while completely ignoring the input image. We perform our experiments on historical handwritten (Bentham) and historical printed datasets mainly to investigate the benefits of the self-supervised pre-training techniques with different amounts of annotated target domain data. We use transfer learning as strong baselines. The evaluation shows that the self-supervised pre-training on data from the target domain is very effective, but it struggles to outperform transfer learning from closely related domains. This paper is one of the first researches exploring self-supervised pre-training in document text recognition, and we believe that it will become a cornerstone for future research in this area. We made our implementation of the investigated methods publicly available at https://github.com/DCGM/pero-pretraining.
翻訳日:2024-05-02 16:07:30 公開日:2024-05-01
# 高次元リッジ回帰における最適バイアス補正と正当性推論:閉じた解法

Optimal Bias-Correction and Valid Inference in High-Dimensional Ridge Regression: A Closed-Form Solution ( http://arxiv.org/abs/2405.00424v1 )

ライセンス: Link先を確認
Zhaoxing Gao, (参考訳) リッジ回帰は、ビッグデータのエコノメトリにおいて必須のツールであるが、統計効率とスケーラビリティの両方に影響を与えるバイアスの問題に悩まされている。 寸法$p$がサンプルサイズ$n$より小さい場合、バイアスを効果的に補正するための反復戦略を導入する。 p>n$の場合、反応の線形変換によって達成不可能なレベルへのバイアスを最適に低減する。 我々は、$p>n$のときの残差を処理するためにRide-Screening (RS)法を用い、バイアス補正に適した縮小モデルを作成する。 ある条件下では、選択されたモデルは真のモデルをネストし、RSを新しい変数選択アプローチにする。 p<n$ と $p>n$ の両方に対する非バイアスのリッジ推定器の漸近特性と有効推論を確立し、$p$ と $n$ は反復数とともに無限大へと成長する。 本手法はシミュレーションおよび実世界のデータ例を用いて検証し,リッジ回帰推論におけるバイアス問題に対するクローズドフォームソリューションを提供する。

Ridge regression is an indispensable tool in big data econometrics but suffers from bias issues affecting both statistical efficiency and scalability. We introduce an iterative strategy to correct the bias effectively when the dimension $p$ is less than the sample size $n$. For $p>n$, our method optimally reduces the bias to a level unachievable through linear transformations of the response. We employ a Ridge-Screening (RS) method to handle the remaining bias when $p>n$, creating a reduced model suitable for bias-correction. Under certain conditions, the selected model nests the true one, making RS a novel variable selection approach. We establish the asymptotic properties and valid inferences of our de-biased ridge estimators for both $p< n$ and $p>n$, where $p$ and $n$ may grow towards infinity, along with the number of iterations. Our method is validated using simulated and real-world data examples, providing a closed-form solution to bias challenges in ridge regression inferences.
翻訳日:2024-05-02 16:07:30 公開日:2024-05-01
# 量子モンテカルロ法による二次元一様電子液体の相図の研究

Quantum Monte Carlo study of the phase diagram of the two-dimensional uniform electron liquid ( http://arxiv.org/abs/2405.00425v1 )

ライセンス: Link先を確認
Sam Azadi, N. D. Drummond, S. M. Vinko, (参考訳) Slater-Jastrow-backflow 波動関数を用いた変分量子および拡散量子モンテカルロ法 (VMC, DMC) を用いたスピン非偏極およびスピン偏極2次元均一電子液体の研究を行った。 基底状態VMCおよびDMCエネルギーは、密度範囲1 \leq r_\text{s} \leq 40$で得られる。 単粒子および多体有限サイズ誤差は、標準アンサンブル平均ツイスト平均境界条件と、ツイスト平均エネルギーを無限系サイズの熱力学限界に外挿することにより補正する。 部分収束VMCエネルギー最小化計算によるSlater-Jastrow-Backflow DMCエネルギーのシステムサイズ依存誤差について論じる。 1 の leq r_\text{s} \leq 5$ に対して、各ツイストでのバックフロー関数の最適化は、ツイスト平均 DMC エネルギーを有限系サイズで低下させる。 しかし、非体系的なシステムサイズ依存効果は DMC エネルギーに残っており、これは複数の有限系サイズから無限系サイズへの外挿によって部分的に除去することができる。 これらの非体系的効果は,低密度の異なるシステムサイズにおける流体相と欠陥結晶相の密接な競合に起因すると考えられる。 熱力学限界におけるDMCエネルギーは、不均一電子系で機能する局所スピン密度近似相関をパラメータ化するために用いられる。 常磁性流体から六方晶ウィグナー結晶への1つの転移をr_\text{s}=35(1)$で示す。

We present a study of spin-unpolarized and spin-polarized two-dimensional uniform electron liquids using variational and diffusion quantum Monte Carlo (VMC and DMC) methods with Slater-Jastrow-backflow trial wave functions. Ground-state VMC and DMC energies are obtained in the density range $1 \leq r_\text{s} \leq 40$. Single-particle and many-body finite-size errors are corrected using canonical-ensemble twist-averaged boundary conditions and extrapolation of twist-averaged energies to the thermodynamic limit of infinite system size. System-size-dependent errors in Slater-Jastrow-backflow DMC energies caused by partially converged VMC energy minimization calculations are discussed. We find that, for $1 \leq r_\text{s} \leq 5$, optimizing the backflow function at each twist lowers the twist-averaged DMC energy at finite system size. However, nonsystematic system-size-dependent effects remain in the DMC energies, which can be partially removed by extrapolation from multiple finite system sizes to infinite system size. We attribute these nonsystematic effects to the close competition between fluid and defected crystal phases at different system sizes at low density. The DMC energies in the thermodynamic limit are used to parameterize a local spin density approximation correlation functional for inhomogeneous electron systems. Our zero-temperature phase diagram shows a single transition from a paramagnetic fluid to a hexagonal Wigner crystal at $r_\text{s}=35(1)$, with no region of stability for a ferromagnetic fluid.
翻訳日:2024-05-02 15:57:39 公開日:2024-05-01
# 無線通信システムにおけるPLAの文脈におけるRISの可能性について

On the Potential of RIS in the Context of PLA in Wireless Communication Systems ( http://arxiv.org/abs/2405.00426v1 )

ライセンス: Link先を確認
Hama Amin, Waqas Aman, Saif Al-Kuwari, (参考訳) Re-configurable Intelligent Surfaces (RIS)技術は、スループット、スペクトル、エネルギー効率の面で性能を向上することで、次世代無線ネットワークにとって有望な候補であることが証明されている。 しかし、RIS支援無線通信のブロードキャスト特性は、物理的層における悪意のある攻撃に対して脆弱である。 一方、物理層認証は、物理層のランダムな特徴を利用して、クローン、偽造、偽造などの異なる攻撃を阻止するセキュリティ領域の新興領域である。 本稿では,RISを利用した物理層認証(PLA)の可能性を明らかにするために,RISを利用した無線通信システムについて検討する。 具体的には、RIS支援無線通信におけるPLAのためのパスロスとチャネルインパルス応答(CIR)の2つの特徴を利用する。 推定された特徴に対する仮説テストを構築し, 閉形式の誤り表現を導出する。 さらに,RISパネルの位相シフトを最適化して最小化する目的関数として,臨界誤差,すなわち検出の欠落を選択した。 提案手法とPLA方式のベースライン機構の比較を行った。 さらに,誤報の確率 (PFA) や誤検知の確率 (PMD) ,受信動作特性 (ROC) 曲線などの性能指標を用いて,提案手法を徹底的に評価した。 その結果、最適位相シフトを決定する際に、PSD値をゼロに効果的に削減するため、RISがPLAに有意な正の効果を示した。

Re-configurable Intelligent Surfaces (RIS) technology has proven itself a promising candidate for the next generation of wireless networks through its enhanced performance in terms of throughput, spectral, and energy efficiency. However, the broadcast nature of RIS-assisted wireless communication makes it vulnerable to malicious attacks at the physical layer. On the other hand, physical layer authentication is an emerging area in the security domain to thwart different attacks such as cloning, spoofing, and impersonation by using the random features of the physical layer. In this paper, we investigate RIS-assisted wireless communication systems to unlock the potential of using RIS for physical layer authentication (PLA). Specifically, we exploit two distinct features of the physical layer: pathloss and channel impulse response (CIR) for PLA in RIS-assisted wireless communication. We construct hypothesis tests for the estimated features and derive the closed-form errors' expressions. Further, we chose the critical error, i.e., missed detection as our objective function for minimization by optimizing the phase shift of the RIS pannel. We compare the performance of our proposed mechanisms with baseline mechanisms which are PLA schemes using the same features but with no RIS assistance. Furthermore, we thoroughly evaluate our proposed schemes using performance metrics such as the probability of false alarm (PFA), the probability of missed detection (PMD), and the receiver operating characteristic (ROC) curves. The results demonstrate the significant positive impact of RIS on PLA, as it effectively reduces PMD values to zero when determining the optimal phase shift.
翻訳日:2024-05-02 15:57:39 公開日:2024-05-01
# CC2Vec:コードクローン検出のための型付きトークンとコントラスト学習の組み合わせ

CC2Vec: Combining Typed Tokens with Contrastive Learning for Effective Code Clone Detection ( http://arxiv.org/abs/2405.00428v1 )

ライセンス: Link先を確認
Shihan Dou, Yueming Wu, Haoxiang Jia, Yuhao Zhou, Yan Liu, Yang Liu, (参考訳) オープンソースコミュニティの発展に伴い、コードがコピーされ、拡散され、複数のソフトウェアシステムで進化することが多く、ソフトウェアシステムに不確実性とリスクをもたらす(バグの伝播や著作権侵害など)。 したがって、類似のコードペアを発見するためには、コードクローン検出を実行することが重要である。 トークンベースのツールが大きなコードにスケール可能なコードクローンを検出するために、多くのアプローチが提案されている。 しかし、プログラムの詳細が不足しているため、より複雑なコードクローン、すなわちセマンティックコードクローンを扱うことはできない。 本稿では,単純なコードクローンを迅速に識別すると同時に,セマンティックコードクローン検出機能を強化した新しいコード符号化手法であるCC2Vecを紹介する。 プログラムの詳細をトークン間で保持するために、CC2Vecはそれらを構文タイプに応じて異なるカテゴリ(例えば型付きトークン)に分割し、2つの自己保持機構レイヤを適用してエンコードする。 セマンティックコードクローンのコード構造の変化に抵抗するため、CC2Vecは異なるコード実装で導入された違いを減らすために対照的な学習を行う。 我々は,広く使用されている2つのデータセット(BigCloneBenchとGoogle Code Jam)上でCC2Vecを評価し,本手法が単純なコードクローンを効果的に検出できることを報告した。 さらに、CC2Vecは、ASTNN、SCDetector、FCCAといった広く使われているセマンティックコードクローン検出システムに匹敵する性能を得るだけでなく、検出効率においてこれらの手法をはるかに上回っている。

With the development of the open source community, the code is often copied, spread, and evolved in multiple software systems, which brings uncertainty and risk to the software system (e.g., bug propagation and copyright infringement). Therefore, it is important to conduct code clone detection to discover similar code pairs. Many approaches have been proposed to detect code clones where token-based tools can scale to big code. However, due to the lack of program details, they cannot handle more complicated code clones, i.e., semantic code clones. In this paper, we introduce CC2Vec, a novel code encoding method designed to swiftly identify simple code clones while also enhancing the capability for semantic code clone detection. To retain the program details between tokens, CC2Vec divides them into different categories (i.e., typed tokens) according to the syntactic types and then applies two self-attention mechanism layers to encode them. To resist changes in the code structure of semantic code clones, CC2Vec performs contrastive learning to reduce the differences introduced by different code implementations. We evaluate CC2Vec on two widely used datasets (i.e., BigCloneBench and Google Code Jam) and the results report that our method can effectively detect simple code clones. In addition, CC2Vec not only attains comparable performance to widely used semantic code clone detection systems such as ASTNN, SCDetector, and FCCA by simply fine-tuning, but also significantly surpasses these methods in both detection efficiency.
翻訳日:2024-05-02 15:57:39 公開日:2024-05-01
# 放射線治療における運動モデリングのための連続sPatial-Temporal Deformable Image Registration(CPT-DIR)

Continuous sPatial-Temporal Deformable Image Registration (CPT-DIR) for motion modelling in radiotherapy: beyond classic voxel-based methods ( http://arxiv.org/abs/2405.00430v1 )

ライセンス: Link先を確認
Xia Li, Muheng Li, Antony Lomax, Joachim Buhmann, Ye Zhang, (参考訳) 背景と目的: 変形性画像登録(DIR)は臓器運動の抽出とモデル化のための放射線治療において重要なツールである。 しかし, 重要な変化やすべり境界が存在する場合, 精度と不確かさが損なわれ, その後の輪郭伝播と線量蓄積の手順が決定される。 材料と方法:我々は空間と時間の両方で動きを連続的にモデル化する暗黙的ニューラル表現(INR)に基づくアプローチ、Continues-sPatial-Temporal DIR (CPT-DIR)を提案する。 この方法はMLPネットワークを用いて3次元座標(x,y,z)を対応する速度ベクトル(vx,vy,vz)にマッピングする。 変位ベクトル(dx,dy,dz)は、時間とともに速度ベクトルを統合することによって計算される。 MLPのパラメータは、事前トレーニングなしで新しいケースに迅速に適応でき、最適化が向上する。 DIRは,10例の肺4DCTのDIR-Labデータセットを用いて,ランドマーク精度(TRE),輪郭適合度(Dice),画像類似度(MAE)の測定を行った。 結果: 提案したCPT-DIRは, ランドマークTREを2.79mmから0.99mmに低減し, 全症例においてBスプラインの成績を上回った。 全身領域のMAEは35.46HUから28.99HUに改善されている。 さらに、CPT-DIRはスライディング境界領域の精度をBスプラインを超え、MAEを低下させ、リブケージのジス係数を65.65HU、90.41%から42.04HU、90.56%に増加させ、登録無しでは75.40HU、89.30%とした。 一方、CPT-DIRは、従来のB-スプライン方式に比べて15秒未満で完了する。 結論: CPT-DIR法は, 連続表現の活用により, 登録精度, 自動化, 速度を著しく向上し, ランドマークおよび輪郭精度において, 特に困難な領域において, 従来のB-スプラインよりも優れていた。

Background and purpose: Deformable image registration (DIR) is a crucial tool in radiotherapy for extracting and modelling organ motion. However, when significant changes and sliding boundaries are present, it faces compromised accuracy and uncertainty, determining the subsequential contour propagation and dose accumulation procedures. Materials and methods: We propose an implicit neural representation (INR)-based approach modelling motion continuously in both space and time, named Continues-sPatial-Temporal DIR (CPT-DIR). This method uses a multilayer perception (MLP) network to map 3D coordinate (x,y,z) to its corresponding velocity vector (vx,vy,vz). The displacement vectors (dx,dy,dz) are then calculated by integrating velocity vectors over time. The MLP's parameters can rapidly adapt to new cases without pre-training, enhancing optimisation. The DIR's performance was tested on the DIR-Lab dataset of 10 lung 4DCT cases, using metrics of landmark accuracy (TRE), contour conformity (Dice) and image similarity (MAE). Results: The proposed CPT-DIR can reduce landmark TRE from 2.79mm to 0.99mm, outperforming B-splines' results for all cases. The MAE of the whole-body region improves from 35.46HU to 28.99HU. Furthermore, CPT-DIR surpasses B-splines for accuracy in the sliding boundary region, lowering MAE and increasing Dice coefficients for the ribcage from 65.65HU and 90.41% to 42.04HU and 90.56%, versus 75.40HU and 89.30% without registration. Meanwhile, CPT-DIR offers significant speed advantages, completing in under 15 seconds compared to a few minutes with the conventional B-splines method. Conclusion: Leveraging the continuous representations, the CPT-DIR method significantly enhances registration accuracy, automation and speed, outperforming traditional B-splines in landmark and contour precision, particularly in the challenging areas.
翻訳日:2024-05-02 15:57:39 公開日:2024-05-01
# 参照型画像超解像のための詳細化フレームワーク

Detail-Enhancing Framework for Reference-Based Image Super-Resolution ( http://arxiv.org/abs/2405.00431v1 )

ライセンス: Link先を確認
Zihan Wang, Ziliang Xiong, Hongying Tang, Xiaobing Yuan, (参考訳) 近年、参照ベースの画像超解像(Ref-SR)の繁栄が見られた。 高分解能(HR)参照画像を単一の画像超解像(SISR)アプローチにインポートすることにより、この長年のフィールドの不適切な性質は、参照画像から転写されたテクスチャの助けを借りて緩和されている。 定量的および定性的な結果の大幅な改善はRef-SR法の優位性を証明しているが, テクスチャ転送前のミスアライメントの存在は, さらなる性能向上の余地を示している。 既存の手法では、比較の文脈における詳細の重要性を無視する傾向があるため、低解像度(LR)画像に含まれる情報を十分に活用することができない。 本稿では,参照型超解像のためのDEF(Detail-Enhancing Framework)を提案する。 参照画像に対応する部分が存在する場合,本手法は厳密なアライメントを容易にする。 参照画像が対応する部分を欠いている場合、参照画像の影響を回避しつつ、根本的な改善を確実にする。 大規模な実験により,提案手法は比較した数値結果を維持しつつ,優れた視覚的結果が得られることを示した。

Recent years have witnessed the prosperity of reference-based image super-resolution (Ref-SR). By importing the high-resolution (HR) reference images into the single image super-resolution (SISR) approach, the ill-posed nature of this long-standing field has been alleviated with the assistance of texture transferred from reference images. Although the significant improvement in quantitative and qualitative results has verified the superiority of Ref-SR methods, the presence of misalignment before texture transfer indicates room for further performance improvement. Existing methods tend to neglect the significance of details in the context of comparison, therefore not fully leveraging the information contained within low-resolution (LR) images. In this paper, we propose a Detail-Enhancing Framework (DEF) for reference-based super-resolution, which introduces the diffusion model to generate and enhance the underlying detail in LR images. If corresponding parts are present in the reference image, our method can facilitate rigorous alignment. In cases where the reference image lacks corresponding parts, it ensures a fundamental improvement while avoiding the influence of the reference image. Extensive experiments demonstrate that our proposed method achieves superior visual results while maintaining comparable numerical outcomes.
翻訳日:2024-05-02 15:57:39 公開日:2024-05-01
# ニューロモーフィック言語モデルにおける重み空間補完活動空間

Weight Sparsity Complements Activity Sparsity in Neuromorphic Language Models ( http://arxiv.org/abs/2405.00433v1 )

ライセンス: Link先を確認
Rishav Mukherji, Mark Schöne, Khaleelulla Khan Nazeer, Christian Mayr, David Kappel, Anand Subramoney, (参考訳) アクティビティとパラメータの空間性は、ニューラルネットワークをより効率的にするための2つの標準的な方法である。 スパイキングニューラルネットワーク(SNN)のようなイベントベースのアーキテクチャは、自然に活動の空間性を示し、ウェイトを刈り取ることで接続性を疎結合化するために多くの方法が存在する。 フィードフォワードSNNに対するウェイトプルーニングの効果は、これまでコンピュータビジョンタスクにおいて研究されてきたが、言語モデリングのような複雑なシーケンスタスクに対するプルーニングの効果は、伝統的にこれらのタスクにおいて有意義なパフォーマンスを達成するのに苦労してきたため、あまり研究されていない。 最近発表されたSNNのようなアーキテクチャは、小規模な言語モデリングでうまく機能するので、活動空間と組み合わせることで重み付けの効果について検討する。 具体的には,乗算効率のトレードオフが,言語モデリングのタスク性能に与える影響について検討する。 この2つの空間の影響を判別するために,密に活性化されたモデルと疎に活性化されたイベントベースモデルの比較分析を行った。 我々は、Penn TreebankとWikiText-2言語モデリングデータセットに基づいてトレーニングされたイベントベースニューラルネットワークにおいて、タスク性能が比例的に低下することなく、スパースアクティビティとスパース接続が相互に補完することを示した。 この結果から,疎結合なイベントベースニューラルネットワークは効率的かつ効率的なシーケンスモデリングの候補となる可能性が示唆された。

Activity and parameter sparsity are two standard methods of making neural networks computationally more efficient. Event-based architectures such as spiking neural networks (SNNs) naturally exhibit activity sparsity, and many methods exist to sparsify their connectivity by pruning weights. While the effect of weight pruning on feed-forward SNNs has been previously studied for computer vision tasks, the effects of pruning for complex sequence tasks like language modeling are less well studied since SNNs have traditionally struggled to achieve meaningful performance on these tasks. Using a recently published SNN-like architecture that works well on small-scale language modeling, we study the effects of weight pruning when combined with activity sparsity. Specifically, we study the trade-off between the multiplicative efficiency gains the combination affords and its effect on task performance for language modeling. To dissect the effects of the two sparsities, we conduct a comparative analysis between densely activated models and sparsely activated event-based models across varying degrees of connectivity sparsity. We demonstrate that sparse activity and sparse connectivity complement each other without a proportional drop in task performance for an event-based neural network trained on the Penn Treebank and WikiText-2 language modeling datasets. Our results suggest sparsely connected event-based neural networks are promising candidates for effective and efficient sequence modeling.
翻訳日:2024-05-02 15:57:39 公開日:2024-05-01
# 電力グリッドにおけるN-1セキュリティのための量子アルゴリズム

Quantum algorithms for N-1 security in power grids ( http://arxiv.org/abs/2405.00434v1 )

ライセンス: Link先を確認
Niels M. P. Neumann, Stan van der Linde, Willem de Kok, Koen Leijnse, Juan Boschero, Esteban Aguilera, Peter Elias-van den Berg, Vincent Koppen, Nikki Jaspers, Jelte Zwetsloot, (参考訳) 近年、電力の供給と需要が大幅に増加した。 その結果、相互接続グリッドのインフラはさらなる拡張を必要とし、予期せぬ失敗の迅速な解決を可能にした。 エネルギーグリッドオペレータは、異なるレベルのセキュリティ要件を満たすネットワークに取り組みます。 中電圧ネットワークのN-1セキュリティの場合、単一リンクが故障した場合の電力供給の継続を保証することが目標である。 しかしながら、ネットワークがN-1セキュアかどうかを決定するプロセスは、ネットワークサイズで多項式的にスケールすることが知られている。 これにより、ネットワークの需要が増加すると制限が生じる。 この場合、より計算的に難しいケースが実際に発生し、計算時間も大幅に増加する。 本研究では、よりスケーラブルなソリューションを提供するために、量子コンピュータの可能性を探る。 特に、ゲートベースの量子コンピューティング、量子アニール、フォトニック量子コンピューティングについて考察する。

In recent years, the supply and demand of electricity has significantly increased. As a result, the interconnecting grid infrastructure has required (and will continue to require) further expansion, while allowing for rapid resolution of unforeseen failures. Energy grid operators strive for networks that satisfy different levels of security requirements. In the case of N-1 security for medium voltage networks, the goal is to ensure the continued provision of electricity in the event of a single-link failure. However, the process of determining if networks are N-1 secure is known to scale polynomially in the network size. This poses restrictions if we increase our demand of the network. In that case, more computationally hard cases will occur in practice and the computation time also increases significantly. In this work, we explore the potential of quantum computers to provide a more scalable solution. In particular, we consider gate-based quantum computing, quantum annealing, and photonic quantum computing.
翻訳日:2024-05-02 15:57:39 公開日:2024-05-01
# MetaRM: メタラーニングによる配向のシフト

MetaRM: Shifted Distributions Alignment via Meta-Learning ( http://arxiv.org/abs/2405.00438v1 )

ライセンス: Link先を確認
Shihan Dou, Yan Liu, Enyu Zhou, Tianlong Li, Haoxiang Jia, Limao Xiong, Xin Zhao, Junjie Ye, Rui Zheng, Tao Gui, Qi Zhang, Xuanjing Huang, (参考訳) 言語モデルアライメントにおけるRLHF(Reinforcement Learning from Human Feedback)の成功は、報酬モデル(RM)の能力に依存している。 しかし、トレーニングプロセスが進むにつれて、ポリシーモデルの出力分布が変化し、RMの応答を区別する能力は低下する。 この問題は、特定のデータ分布で訓練されたRMが、その分布外の例に一般化するのに苦労しているときにさらに複雑になる。 これら2つの問題は、環境の変化による課題としてまとめることができる。 この課題を克服するために,メタラーニングを利用したメタRMを導入する。 MetaRMは、データ損失を最小限に抑えてRMを訓練するように設計されている。 大規模な実験により、MetaRMは反復RLHF最適化におけるRMの識別能力を著しく改善し、また分布外サンプルの微妙な違いを識別する能力も提供する。

The success of Reinforcement Learning from Human Feedback (RLHF) in language model alignment is critically dependent on the capability of the reward model (RM). However, as the training process progresses, the output distribution of the policy model shifts, leading to the RM's reduced ability to distinguish between responses. This issue is further compounded when the RM, trained on a specific data distribution, struggles to generalize to examples outside of that distribution. These two issues can be united as a challenge posed by the shifted distribution of the environment. To surmount this challenge, we introduce MetaRM, a method leveraging meta-learning to align the RM with the shifted environment distribution. MetaRM is designed to train the RM by minimizing data loss, particularly for data that can improve the differentiation ability to examples of the shifted target distribution. Extensive experiments demonstrate that MetaRM significantly improves the RM's distinguishing ability in iterative RLHF optimization, and also provides the capacity to identify subtle differences in out-of-distribution samples.
翻訳日:2024-05-02 15:57:39 公開日:2024-05-01
# 異常対称性を持つスピン鎖の分断磁壁統計

Fractional domain wall statistics in spin chains with anomalous symmetries ( http://arxiv.org/abs/2405.00439v1 )

ライセンス: Link先を確認
Jose Garre Rubio, Norbert Schuch, (参考訳) 量子スピン鎖における磁壁励起の統計について検討する。 行列積ユニタリ (MPU) で表される有限対称性群を持つ系、すなわち有限深さ量子回路に焦点を当てる。 このような対称性は異常であり、そこではそれらが支持する相のギャップが対称性を破らなければならない。 したがって、これらの系の最も低い嘘の励起はドメイン壁の励起である。 交換中におけるこれらの領域壁の挙動について検討し、非自明な交換統計を示すことができることを示す。 この統計は対称性の異常によって完全に決定され、基底状態におけるMPU対称性の既知の分類とドメインウォール統計との直接的な関係を提供する。 $\mathbb Z_2$対称性の最も単純な場合に対して、異常なMPU対称性の存在は、ボソンやフェルミオンとして振る舞うのではなく、むしろ分数統計を示すようなドメイン壁の励起を引き起こす。 最後に、決定可能な明示的な測定演算子を考案することにより、ドメイン壁の交換統計値が物理的にアクセス可能な量であることを示す。

We study the statistics of domain wall excitations in quantum spin chains. We focus on systems with finite symmetry groups represented by matrix product unitaries (MPUs), i.e. finite depth quantum circuits. Such symmetries can be anomalous, in which case gapped phases which they support must break the symmetry. The lowest lying excitations of those systems are thus domain wall excitations. We investigate the behavior of these domain walls under exchange, and find that they can exhibit non-trivial exchange statistics. This statistics is completely determined by the anomaly of the symmetry, and we provide a direct relation between the known classification of MPU symmetry actions on ground states and the domain wall statistics. Already for the simplest case of a $\mathbb Z_2$ symmetry, we obtain that the presence of an anomalous MPU symmetry gives rise to domain wall excitations which behave neither as bosons nor as fermions, but rather exhibit fractional statistics. Finally, we show that the exchange statistics of domain walls is a physically accessible quantity, by devising explicit measurement operators through which it can be determined.
翻訳日:2024-05-02 15:57:39 公開日:2024-05-01
# 線形層と非線形層をモデル化するMILPアプローチ

Modeling Linear and Non-linear Layers: An MILP Approach Towards Finding Differential and Impossible Differential Propagations ( http://arxiv.org/abs/2405.00441v1 )

ライセンス: Link先を確認
Debranjan Pal, Vishal Pankaj Chandratreya, Abhijit Das, Dipanwita Roy Chowdhury, (参考訳) シンメトリ・キー暗号は、現代の電子通信フレームワークにおけるセキュリティを確保するための基本的な基盤となっている。 古典対称鍵暗号の暗号解析には、これらの暗号システムの解読や解析を目的とした伝統的な手法と技法が含まれる。 新しい暗号の評価において、線形および微分暗号解析に対する抵抗は、一般に鍵となる設計基準である。 ブロック暗号のための広軌設計技術は、線形および微分暗号解析に対するセキュリティの実証を容易にする。 ディファレンシャルアタックに対するスキームのセキュリティを評価するには、暗号の全てのラウンドに対して最小のアクティブなSBox数を決定する必要がある。 SBoxのような暗号部品の伝搬特性はブール関数を用いて表現できる。 混合整数線形計画法(MILP)はブール関数の解法として有用であることが証明されている。 ブール関数をモデル化するために不等式の集合を定式化し、その後MILPソルバによって解かれる。 ブール関数を効率的にモデル化し、最小限の不等式を選択するためには、2つの重要な課題に対処する必要がある。 本稿では、より最適化された線形および非線形のコンポーネントを見つけることを目的として、2つ目の課題に対処するアルゴリズムを提案する。 我々のアプローチは、SBox(最大6ビット)とEXOR操作を任意の数の入力でモデル化するために適用されます。 さらに,MILPをベースとした,暗号内における微分および不可能な微分伝搬を探索するための自動ツールを提案する。 このツールは、Lilliput、GIFT64、SKINNY64、Klein、MIBSの5つの軽量ブロック暗号に適用できる。

Symmetric key cryptography stands as a fundamental cornerstone in ensuring security within contemporary electronic communication frameworks. The cryptanalysis of classical symmetric key ciphers involves traditional methods and techniques aimed at breaking or analyzing these cryptographic systems. In the evaluation of new ciphers, the resistance against linear and differential cryptanalysis is commonly a key design criterion. The wide trail design technique for block ciphers facilitates the demonstration of security against linear and differential cryptanalysis. Assessing the scheme's security against differential attacks often involves determining the minimum number of active SBoxes for all rounds of a cipher. The propagation characteristics of a cryptographic component, such as an SBox, can be expressed using Boolean functions. Mixed Integer Linear Programming (MILP) proves to be a valuable technique for solving Boolean functions. We formulate a set of inequalities to model a Boolean function, which is subsequently solved by an MILP solver. To efficiently model a Boolean function and select a minimal set of inequalities, two key challenges must be addressed. We propose algorithms to address the second challenge, aiming to find more optimized linear and non-linear components. Our approaches are applied to modeling SBoxes (up to six bits) and EXOR operations with any number of inputs. Additionally, we introduce an MILP-based automatic tool for exploring differential and impossible differential propagations within a cipher. The tool is successfully applied to five lightweight block ciphers: Lilliput, GIFT64, SKINNY64, Klein, and MIBS.
翻訳日:2024-05-02 15:57:39 公開日:2024-05-01
# 焦点損失に対する幾何学的洞察:強化されたモデル校正のための曲率削減

Geometric Insights into Focal Loss: Reducing Curvature for Enhanced Model Calibration ( http://arxiv.org/abs/2405.00442v1 )

ライセンス: Link先を確認
Masanari Kimura, Hiroki Naganuma, (参考訳) 意思決定状況において機械学習アルゴリズムを実装する上で重要な要素は、モデルの精度だけでなく、その信頼性レベルでもある。 分類問題におけるモデルの信頼度は、便利なソフトマックス関数の出力ベクトルによって与えられることが多い。 しかし、これらの値は実際の期待されるモデルの信頼性からかなり逸脱することが知られている。 この問題はモデルキャリブレーションと呼ばれ、広く研究されている。 この課題に取り組む最も単純な手法の1つは焦点損失であり、これは1つの正のパラメータを導入することでクロスエントロピーの一般化である。 アイデアの単純さと形式化のため、多くの関連研究があるが、その振る舞いの理論解析はまだ不十分である。 本研究では, この関数を幾何学的に再解釈することにより, 焦点損失の挙動を理解することを目的とする。 解析の結果,焦点損失はモデルトレーニングにおける損失面の曲率を低下させることが示された。 このことは、曲率がモデルのキャリブレーションを達成する上で不可欠な要素の1つであることを示している。 我々は,この予測を支持する数値実験を設計し,焦点損失の挙動とキャリブレーション性能と曲率の関係を明らかにする。

The key factor in implementing machine learning algorithms in decision-making situations is not only the accuracy of the model but also its confidence level. The confidence level of a model in a classification problem is often given by the output vector of a softmax function for convenience. However, these values are known to deviate significantly from the actual expected model confidence. This problem is called model calibration and has been studied extensively. One of the simplest techniques to tackle this task is focal loss, a generalization of cross-entropy by introducing one positive parameter. Although many related studies exist because of the simplicity of the idea and its formalization, the theoretical analysis of its behavior is still insufficient. In this study, our objective is to understand the behavior of focal loss by reinterpreting this function geometrically. Our analysis suggests that focal loss reduces the curvature of the loss surface in training the model. This indicates that curvature may be one of the essential factors in achieving model calibration. We design numerical experiments to support this conjecture to reveal the behavior of focal loss and the relationship between calibration performance and curvature.
翻訳日:2024-05-02 15:57:39 公開日:2024-05-01
# MMTryon:高品質ファッション生成のためのマルチモードマルチ参照制御

MMTryon: Multi-Modal Multi-Reference Control for High-Quality Fashion Generation ( http://arxiv.org/abs/2405.00448v1 )

ライセンス: Link先を確認
Xujie Zhang, Ente Lin, Xiu Li, Yuxuan Luo, Michael Kampffmeyer, Xin Dong, Xiaodan Liang, (参考訳) 本稿では,テキストインストラクションと複数の衣料品イメージを入力として,高品質な合成試行結果を生成するマルチモーダルマルチ参照VITONフレームワークであるMMTryonを紹介する。 私たちのMMTryonは主に、以前の文献で見落とされた2つの問題に対処しています。 1)複数の試着品と着物スタイルのサポートは、通常、単着の試着作業(例えば、上着・下着・着物)のために設計され、着物スタイル(例えば、ツッピング・アンズプ、タックイン・タックアウト等)のカスタマイズに不足している。 2)セグメンテーション依存。 さらに、置換領域を特定するためにカテゴリ固有のセグメンテーションモデルに強く依存しており、セグメンテーションエラーは試行錯誤の結果において直接的に重要なアーティファクトに繋がる。 第一号として,MMTryonでは,参照画像からの衣服情報とテキスト指示からのドレッシングスタイル情報を組み合わせた,新しいマルチモダリティ・マルチリファレンスアテンション機構を導入している。 さらに、セグメンテーション依存を取り除くために、MMTryonはパーシングフリーの衣料エンコーダを使用し、新しいスケーラブルなデータ生成パイプラインを活用して、既存のVITONデータセットを明示的なセグメンテーションを必要とせずに、MMTryonをトレーニング可能な形式に変換する。 高解像度のベンチマークと実験セットに関する大規模な実験は、MMTryonが既存のSOTA法よりも質的かつ定量的に優れていることを示した。 さらに、MMTryonのマルチテムとスタイル制御可能な仮想トライオンシナリオにおける印象的なパフォーマンスや、あらゆるソースイメージからさまざまなシナリオの任意の衣装を試す能力は、ファッションコミュニティにおける今後の調査のための新たな道を開く。

This paper introduces MMTryon, a multi-modal multi-reference VIrtual Try-ON (VITON) framework, which can generate high-quality compositional try-on results by taking as inputs a text instruction and multiple garment images. Our MMTryon mainly addresses two problems overlooked in prior literature: 1) Support of multiple try-on items and dressing styleExisting methods are commonly designed for single-item try-on tasks (e.g., upper/lower garments, dresses) and fall short on customizing dressing styles (e.g., zipped/unzipped, tuck-in/tuck-out, etc.) 2) Segmentation Dependency. They further heavily rely on category-specific segmentation models to identify the replacement regions, with segmentation errors directly leading to significant artifacts in the try-on results. For the first issue, our MMTryon introduces a novel multi-modality and multi-reference attention mechanism to combine the garment information from reference images and dressing-style information from text instructions. Besides, to remove the segmentation dependency, MMTryon uses a parsing-free garment encoder and leverages a novel scalable data generation pipeline to convert existing VITON datasets to a form that allows MMTryon to be trained without requiring any explicit segmentation. Extensive experiments on high-resolution benchmarks and in-the-wild test sets demonstrate MMTryon's superiority over existing SOTA methods both qualitatively and quantitatively. Besides, MMTryon's impressive performance on multi-items and style-controllable virtual try-on scenarios and its ability to try on any outfit in a large variety of scenarios from any source image, opens up a new avenue for future investigation in the fashion community.
翻訳日:2024-05-02 15:57:39 公開日:2024-05-01
# RAGに基づく知識グラフと大規模言語モデルを用いた自動運転のための道路利用者行動の説明可能な予測

RAG-based Explainable Prediction of Road Users Behaviors for Automated Driving using Knowledge Graphs and Large Language Models ( http://arxiv.org/abs/2405.00449v1 )

ライセンス: Link先を確認
Mohamed Manzour Hussien, Angie Nataly Melo, Augusto Luis Ballardini, Carlota Salinas Maldonado, Rubén Izquierdo, Miguel Ángel Sotelo, (参考訳) 自動運転の文脈における道路利用者の行動予測は,近年,科学界で注目されている。 ほとんどの研究は、運動情報だけで行動を予測することに集中しており、道路利用者が人間であることから現実の単純化であり、周囲の状況に強く影響されている。 加えて、大規模な研究は強力なディープラーニング技術に依存しており、予測タスクにおいて高いパフォーマンスのメトリクスを示すが、道路シーンに含まれる文脈意味情報を十分に理解し活用する能力が欠如している可能性がある。 本研究では,知識グラフ(KG)の推論能力とLarge Language Models(LLM)の表現能力をRetrieval Augmented Generation(RAG)技術を用いて統合した,道路利用者の行動予測システムを提案する。 その目的のために、知識グラフ埋め込み(KGE)とベイズ推論を組み合わせることで、グラフに含まれるレガシー情報や、オンボードセンサーによってリアルタイムで収集された現在の証拠に依存する予測の発行を可能にする、完全な帰納的推論システムの展開を可能にする。 提案されたアプローチに従って2つのユースケースが実施されている。 1)歩行者の横断行動の予測 2)車線変更操作の予測 どちらの場合も、達成されたパフォーマンスは、期待とF1スコアの観点から現在の最先端を越え、この分野における将来の研究の道筋を示す。

Prediction of road users' behaviors in the context of autonomous driving has gained considerable attention by the scientific community in the last years. Most works focus on predicting behaviors based on kinematic information alone, a simplification of the reality since road users are humans, and as such they are highly influenced by their surrounding context. In addition, a large plethora of research works rely on powerful Deep Learning techniques, which exhibit high performance metrics in prediction tasks but may lack the ability to fully understand and exploit the contextual semantic information contained in the road scene, not to mention their inability to provide explainable predictions that can be understood by humans. In this work, we propose an explainable road users' behavior prediction system that integrates the reasoning abilities of Knowledge Graphs (KG) and the expressiveness capabilities of Large Language Models (LLM) by using Retrieval Augmented Generation (RAG) techniques. For that purpose, Knowledge Graph Embeddings (KGE) and Bayesian inference are combined to allow the deployment of a fully inductive reasoning system that enables the issuing of predictions that rely on legacy information contained in the graph as well as on current evidence gathered in real time by onboard sensors. Two use cases have been implemented following the proposed approach: 1) Prediction of pedestrians' crossing actions; 2) Prediction of lane change maneuvers. In both cases, the performance attained surpasses the current state of the art in terms of anticipation and F1-score, showing a promising avenue for future research in this field.
翻訳日:2024-05-02 15:57:39 公開日:2024-05-01
# 変分量子探索に基づく量子グローバル最小ファインダ

Quantum Global Minimum Finder based on Variational Quantum Search ( http://arxiv.org/abs/2405.00450v1 )

ライセンス: Link先を確認
Mohammadreza Soltaninia, Junpeng Zhan, (参考訳) グローバルミニマの探索は、工学、金融、人工知能を含む複数の分野において重要な課題であり、特に複数の局所最適化を特徴とする非凸関数では、最適化作業が複雑になる。 我々は、グローバルなミニマムを効率的に識別する革新的な量子コンピューティングアプローチであるQuantum Global Minimum Finder (QGMF)を紹介する。 QGMFは、2進探索技術を組み合わせて目的関数を適切な位置にシフトし、次に変分量子探索を用いて、ターゲットとする部分空間内の大域最小値を正確に特定する。 低深度回路アーキテクチャで設計されたQGMFは、拡張性と効率を向上させるためにバイナリサーチの対数的利点を利用して、ノイズ中間量子(NISQ)デバイスに最適化されている。 この研究は、複雑な非凸最適化課題を効果的に克服する量子コンピューティングの能力向上におけるQGMFの影響を実証する。

The search for global minima is a critical challenge across multiple fields including engineering, finance, and artificial intelligence, particularly with non-convex functions that feature multiple local optima, complicating optimization efforts. We introduce the Quantum Global Minimum Finder (QGMF), an innovative quantum computing approach that efficiently identifies global minima. QGMF combines binary search techniques to shift the objective function to a suitable position and then employs Variational Quantum Search to precisely locate the global minimum within this targeted subspace. Designed with a low-depth circuit architecture, QGMF is optimized for Noisy Intermediate-Scale Quantum (NISQ) devices, utilizing the logarithmic benefits of binary search to enhance scalability and efficiency. This work demonstrates the impact of QGMF in advancing the capabilities of quantum computing to overcome complex non-convex optimization challenges effectively.
翻訳日:2024-05-02 15:57:39 公開日:2024-05-01
# モンテカルロ木探索が反復推論学習による推論を強化

Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning ( http://arxiv.org/abs/2405.00451v1 )

ライセンス: Link先を確認
Yuxi Xie, Anirudh Goyal, Wenyue Zheng, Min-Yen Kan, Timothy P. Lillicrap, Kenji Kawaguchi, Michael Shieh, (参考訳) 我々は,AlphaZero が採用した戦略に触発された反復的選好学習プロセスを通じて,Large Language Models (LLM) の推論能力の向上を目的としたアプローチを導入する。 我々の研究は、MCTS(Monte Carlo Tree Search)を利用して好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。 中間段階の整合性を高めるため, 結果検証と段階的自己評価を併用し, 新たに生成したデータの品質評価を継続的に更新する。 提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。 理論的分析は、自己改善を成功させるために、オンラインサンプルデータを使用することの重要性を明らかにしている。 様々な算術的および常識的推論タスクに対する広範囲な評価は、既存のモデルよりも顕著な性能向上を示している。 例えば、我々のアプローチは、GSM8K、MATH、SciQのMistral-7B Supervised Fine-Tuning(SFT)ベースラインよりも優れており、精度は80.7\%$(+$4.8\%$)、32.2\%$(+$3.3\%$)、88.5\%$(+$7.7\%$)にかなり向上している。 さらに、我々の研究は、トレーニングと推論計算のトレードオフを掘り下げ、我々の方法がパフォーマンス向上を効果的に最大化する方法についての洞察を提供する。

We introduce an approach aimed at enhancing the reasoning capabilities of Large Language Models (LLMs) through an iterative preference learning process inspired by the successful strategy employed by AlphaZero. Our work leverages Monte Carlo Tree Search (MCTS) to iteratively collect preference data, utilizing its look-ahead ability to break down instance-level rewards into more granular step-level signals. To enhance consistency in intermediate steps, we combine outcome validation and stepwise self-evaluation, continually updating the quality assessment of newly generated data. The proposed algorithm employs Direct Preference Optimization (DPO) to update the LLM policy using this newly generated step-level preference data. Theoretical analysis reveals the critical importance of using on-policy sampled data for successful self-improving. Extensive evaluations on various arithmetic and commonsense reasoning tasks demonstrate remarkable performance improvements over existing models. For instance, our approach outperforms the Mistral-7B Supervised Fine-Tuning (SFT) baseline on GSM8K, MATH, and SciQ, with substantial percentage increases in accuracy to $80.7\%$ (+$4.8\%$), $32.2\%$ (+$3.3\%$), and $88.5\%$ (+$7.7\%$), respectively. Additionally, our research delves into the training and inference compute tradeoff, providing insights into how our method effectively maximizes performance gains.
翻訳日:2024-05-02 15:57:39 公開日:2024-05-01
# 医用画像分割のための予測精度に基づく能動学習

Predictive Accuracy-Based Active Learning for Medical Image Segmentation ( http://arxiv.org/abs/2405.00452v1 )

ライセンス: Link先を確認
Jun Shi, Shulan Ruan, Ziqi Zhu, Minfan Zhao, Hong An, Xudong Xue, Bing Yan, (参考訳) アクティブ・ラーニングは、アノテートデータに対する深層学習に基づくセグメンテーション手法の高依存性と、医用画像の高価なピクセルレベルのアノテーションコストとの矛盾を緩和するための有効な解決策と考えられている。 しかし、既存の手法の多くは信頼性の低い不確実性評価と多様性と情報のバランスの取れない難しさに悩まされ、セグメンテーションタスクのパフォーマンスは低下した。 そこで本研究では,医用画像セグメンテーションのための効果的な予測精度に基づく能動学習手法を提案する。 具体的には、PAALは主に精度予測器(AP)と軽量ポーリング戦略(WPS)から構成される。 前者は、予測後確率で対象モデルに対してラベル付けされていないサンプルのセグメンテーション精度を正確に予測できる付属学習モジュールである。 後者は、予測精度と特徴表現を組み合わせた効率的なハイブリッドクエリ方式を提供し、得られたサンプルの不確かさと多様性を確保することを目的としている。 複数のデータセットに対する大規模な実験の結果は、PAALの優位性を示している。 PAALは全注釈データに匹敵する精度を達成し、アノテーションのコストを約50%から80%削減し、臨床応用において有意義な可能性を示唆している。 コードはhttps://github.com/shijun18/PAAL-MedSegで入手できる。

Active learning is considered a viable solution to alleviate the contradiction between the high dependency of deep learning-based segmentation methods on annotated data and the expensive pixel-level annotation cost of medical images. However, most existing methods suffer from unreliable uncertainty assessment and the struggle to balance diversity and informativeness, leading to poor performance in segmentation tasks. In response, we propose an efficient Predictive Accuracy-based Active Learning (PAAL) method for medical image segmentation, first introducing predictive accuracy to define uncertainty. Specifically, PAAL mainly consists of an Accuracy Predictor (AP) and a Weighted Polling Strategy (WPS). The former is an attached learnable module that can accurately predict the segmentation accuracy of unlabeled samples relative to the target model with the predicted posterior probability. The latter provides an efficient hybrid querying scheme by combining predicted accuracy and feature representation, aiming to ensure the uncertainty and diversity of the acquired samples. Extensive experiment results on multiple datasets demonstrate the superiority of PAAL. PAAL achieves comparable accuracy to fully annotated data while reducing annotation costs by approximately 50% to 80%, showcasing significant potential in clinical applications. The code is available at https://github.com/shijun18/PAAL-MedSeg.
翻訳日:2024-05-02 15:47:41 公開日:2024-05-01
# 学生ソフトウェアプロジェクト評価のためのファジィ知能システム

Fuzzy Intelligent System for Student Software Project Evaluation ( http://arxiv.org/abs/2405.00453v1 )

ライセンス: Link先を確認
Anna Ogorodova, Pakizar Shamoi, Aron Karatayev, (参考訳) ソフトウェアプロジェクトを開発することで、学生は知識を実践し、チームワークのスキルを得ることができます。 しかし、特に授業の規模が大きくなると、プロジェクト指向のコースにおける学生のパフォーマンスを評価することが大きな課題となる。 本稿では,オブジェクト指向プログラミングとデザインコースを例として,学術ソフトウェアプロジェクトの評価を目的としたファジィインテリジェントシステムを提案する。 評価基準を確立するため,まず,学生プロジェクトチーム(n=31)と教員(n=3)を対象に,重要なパラメータとその適用範囲を特定する調査を行った。 選択された基準 - クリーンコード、継承の使用、機能 - は、学術ソフトウェアプロジェクトの品質を評価するのに不可欠に選ばれました。 これらの基準は、対応するファジィ集合を持つファジィ変数として表される。 1人の教授と2人の講師を含む3人の専門家と共同でファジィ推論システムのファジィルールを定義した。 このシステムは、入力基準を処理し、プロジェクト成功の定量化尺度を作成する。 このシステムはプロジェクトの評価を自動化する上で有望な結果を示した。 提案手法は,プロジェクト評価を標準化し,手動グレーディングにおける主観的バイアスを低減するのに役立つ。

Developing software projects allows students to put knowledge into practice and gain teamwork skills. However, assessing student performance in project-oriented courses poses significant challenges, particularly as the size of classes increases. The current paper introduces a fuzzy intelligent system designed to evaluate academic software projects using object-oriented programming and design course as an example. To establish evaluation criteria, we first conducted a survey of student project teams (n=31) and faculty (n=3) to identify key parameters and their applicable ranges. The selected criteria - clean code, use of inheritance, and functionality - were selected as essential for assessing the quality of academic software projects. These criteria were then represented as fuzzy variables with corresponding fuzzy sets. Collaborating with three experts, including one professor and two course instructors, we defined a set of fuzzy rules for a fuzzy inference system. This system processes the input criteria to produce a quantifiable measure of project success. The system demonstrated promising results in automating the evaluation of projects. Our approach standardizes project evaluations and helps to reduce the subjective bias in manual grading.
翻訳日:2024-05-02 15:47:41 公開日:2024-05-01
# $f$-divergence と $α$-Rényi Divergence によるロバスト半教師付き学習

Robust Semi-supervised Learning via $f$-Divergence and $α$-Rényi Divergence ( http://arxiv.org/abs/2405.00454v1 )

ライセンス: Link先を確認
Gholamali Aminian, Amirhossien Bagheri, Mahyar JafariNodeh, Radmehr Karimian, Mohammad-Hossein Yassaee, (参考訳) 本稿では,セミ教師付き学習における自己学習に適した経験的リスク関数と正規化手法について検討する。 これらのアプローチは、$f$-divergences や $\alpha$-R\'enyi divergences のような様々な分岐測度から着想を得ている。 分岐に根ざした理論的基礎、すなわち$f$-divergencesと$\alpha$-R\'enyiの分岐に着想を得て、経験的リスク関数と正規化技法の理解を深めるための貴重な洞察を提供する。 効果的な半教師付き学習のための自己学習手法としての擬似ラベルとエントロピーの最小化手法では、自己学習過程は、真のラベルと擬似ラベル(ノイズのある擬似ラベル)の間に固有のミスマッチがあり、我々の経験的リスク関数のいくつかは、ノイズの多い擬似ラベルに関して頑健である。 いくつかの条件下では、従来の自己学習法と比較して、経験的リスク関数はより良い性能を示す。

This paper investigates a range of empirical risk functions and regularization methods suitable for self-training methods in semi-supervised learning. These approaches draw inspiration from various divergence measures, such as $f$-divergences and $\alpha$-R\'enyi divergences. Inspired by the theoretical foundations rooted in divergences, i.e., $f$-divergences and $\alpha$-R\'enyi divergence, we also provide valuable insights to enhance the understanding of our empirical risk functions and regularization techniques. In the pseudo-labeling and entropy minimization techniques as self-training methods for effective semi-supervised learning, the self-training process has some inherent mismatch between the true label and pseudo-label (noisy pseudo-labels) and some of our empirical risk functions are robust, concerning noisy pseudo-labels. Under some conditions, our empirical risk functions demonstrate better performance when compared to traditional self-training methods.
翻訳日:2024-05-02 15:47:41 公開日:2024-05-01
# ディープラーニングに基づく交通予測のための因果的説明法

Counterfactual Explanations for Deep Learning-Based Traffic Forecasting ( http://arxiv.org/abs/2405.00456v1 )

ライセンス: Link先を確認
Rushan Wang, Yanan Xin, Yatao Zhang, Fernando Perez-Cruz, Martin Raubal, (参考訳) ディープラーニングモデルは交通予測に広く使われ、最先端の予測精度を達成した。 しかし,これらのモデルにはブラックボックスの性質があるため,ユーザによる解釈は困難である。 この研究は、説明可能なAIアプローチ、反実的説明を活用し、ディープラーニングベースのトラフィック予測モデルの説明可能性とユーザビリティを高めることを目的としている。 具体的には、様々な入力コンテキスト特徴とそれに対応する予測との関係を明らかにすることを目的とする。 本稿では,交通予知のための反現実的説明を生成する包括的枠組みを提案し,提案したシナリオ駆動の反現実的説明を通して有用な洞察を提供する。 この研究は、まず、過去の交通データと文脈変数に基づいて、交通速度を予測するディープラーニングモデルを実装する。 次に、これらの入力変数の変化が予測結果にどのように影響するかを照らし、それによってディープラーニングモデルの透明性を高める。 本研究では,空間的・時間的な異なる条件下での交通速度予測における文脈特徴の影響について検討した。 シナリオ駆動の反現実的説明は、間接的制約と重み付け制約という2つのタイプのユーザ定義的制約を統合し、特定のユースケースに対する反現実的説明の検索を調整します。 これらのパーソナライズされた説明は、モデルの学習メカニズムを理解しようとする機械学習実践者や、現実世界のアプリケーションに対する洞察を求めるドメインエキスパートに恩恵をもたらす。 その結果, 深層学習モデルによって学習された交通パターンを明らかにする上で, 対人的説明の有効性が示され, 時空間予測に使用されるブラックボックス深層学習モデルを理解する可能性を示した。

Deep learning models are widely used in traffic forecasting and have achieved state-of-the-art prediction accuracy. However, the black-box nature of those models makes the results difficult to interpret by users. This study aims to leverage an Explainable AI approach, counterfactual explanations, to enhance the explainability and usability of deep learning-based traffic forecasting models. Specifically, the goal is to elucidate relationships between various input contextual features and their corresponding predictions. We present a comprehensive framework that generates counterfactual explanations for traffic forecasting and provides usable insights through the proposed scenario-driven counterfactual explanations. The study first implements a deep learning model to predict traffic speed based on historical traffic data and contextual variables. Counterfactual explanations are then used to illuminate how alterations in these input variables affect predicted outcomes, thereby enhancing the transparency of the deep learning model. We investigated the impact of contextual features on traffic speed prediction under varying spatial and temporal conditions. The scenario-driven counterfactual explanations integrate two types of user-defined constraints, directional and weighting constraints, to tailor the search for counterfactual explanations to specific use cases. These tailored explanations benefit machine learning practitioners who aim to understand the model's learning mechanisms and domain experts who seek insights for real-world applications. The results showcase the effectiveness of counterfactual explanations in revealing traffic patterns learned by deep learning models, showing its potential for interpreting black-box deep learning models used for spatiotemporal predictions in general.
翻訳日:2024-05-02 15:47:41 公開日:2024-05-01
# 超音波自動スキャンのための身体知による手術ロボットの強化

Enhancing Surgical Robots with Embodied Intelligence for Autonomous Ultrasound Scanning ( http://arxiv.org/abs/2405.00461v1 )

ライセンス: Link先を確認
Huan Xu, Jinlin Wu, Guanglin Cao, Zhen Lei, Zhen Chen, Hongbin Liu, (参考訳) 超音波ロボットは、医療診断や早期疾患スクリーニングにますます利用されている。 しかし、現在の超音波ロボットは人間の意図や指示を理解する知性に欠けており、自律型超音波スキャンを妨げている。 そこで本研究では,超音波ロボットに大規模言語モデル(LLM)とドメイン知識を組み込むことにより,超音波ロボットの効率を向上する超音波身体知能システムを提案する。 具体的には、まず超音波手術知識データベースを設計し、超音波スキャンの専門知識をLLMに追加し、LLMが正確な動作計画を実行できるようにする。 さらに, 超音波のダイナミック・スキャン・ストラテジーを設計し, LLMが走査中の動作計画戦略を動的に調整できるようにする。 広範囲な実験により,本システムは音声スキャンの効率と,音声コマンドによる品質を著しく改善することが示された。 この自律型医療スキャン技術の進歩は、非侵襲的な診断と医療ワークフローの合理化に寄与する。

Ultrasound robots are increasingly used in medical diagnostics and early disease screening. However, current ultrasound robots lack the intelligence to understand human intentions and instructions, hindering autonomous ultrasound scanning. To solve this problem, we propose a novel Ultrasound Embodied Intelligence system that equips ultrasound robots with the large language model (LLM) and domain knowledge, thereby improving the efficiency of ultrasound robots. Specifically, we first design an ultrasound operation knowledge database to add expertise in ultrasound scanning to the LLM, enabling the LLM to perform precise motion planning. Furthermore, we devise a dynamic ultrasound scanning strategy based on a \textit{think-observe-execute} prompt engineering, allowing LLMs to dynamically adjust motion planning strategies during the scanning procedures. Extensive experiments demonstrate that our system significantly improves ultrasound scan efficiency and quality from verbal commands. This advancement in autonomous medical scanning technology contributes to non-invasive diagnostics and streamlined medical workflows.
翻訳日:2024-05-02 15:47:41 公開日:2024-05-01
# BiomedRAG: バイオメディシンのための検索型大規模言語モデル

BiomedRAG: A Retrieval Augmented Large Language Model for Biomedicine ( http://arxiv.org/abs/2405.00465v1 )

ライセンス: Link先を確認
Mingchen Li, Halil Kilicoglu, Hua Xu, Rui Zhang, (参考訳) 大規模言語モデル(LLM)は、バイオメディカルおよび医療分野における様々な応用のための重要なリソースとして急速に現れてきたが、これらのモデルは不正確な情報の生成や幻覚といった問題に直面している。 Retrieval-augmented Generationは、これらのモデルが知識を更新し、パフォーマンスを向上させるためのソリューションを提供する。 従来の検索拡張LMとは対照的に,検索したテキストをLSMにエンコードする際,検索したチャンクベースの文書を直接LLMに入力することで,よりシンプルなアプローチを採用する。 この簡単な設計は、既存の検索や言語モデルに容易に適用でき、特にノイズ集約タスクにおいて、検索した文書のノイズ情報を効果的にバイパスすることができる。 さらに, LLM を利用したバイオメディカル領域の検索モデルを監督し, LM を補助する文書を検索し, その予測を改善する可能性を示した。 実験の結果, 情報抽出(三重抽出, 関係抽出), テキスト分類, リンク予測, 質問応答などを含む5つのNLPタスクにおいて, 9件以上のデータセットを活用でき, 優れた性能が得られることがわかった。 例えば、トリプル抽出タスクでは、 \textsc{BiomedRAG} は、GIT と ChemProt のコーパスにおいて、それぞれ 81.42 と 88.83 のマイクロF1スコアを持つ他のトリプル抽出システムより優れている。

Large Language Models (LLMs) have swiftly emerged as vital resources for different applications in the biomedical and healthcare domains; however, these models encounter issues such as generating inaccurate information or hallucinations. Retrieval-augmented generation provided a solution for these models to update knowledge and enhance their performance. In contrast to previous retrieval-augmented LMs, which utilize specialized cross-attention mechanisms to help LLM encode retrieved text, BiomedRAG adopts a simpler approach by directly inputting the retrieved chunk-based documents into the LLM. This straightforward design is easily applicable to existing retrieval and language models, effectively bypassing noise information in retrieved documents, particularly in noise-intensive tasks. Moreover, we demonstrate the potential for utilizing the LLM to supervise the retrieval model in the biomedical domain, enabling it to retrieve the document that assists the LM in improving its predictions. Our experiments reveal that with the tuned scorer,\textsc{ BiomedRAG} attains superior performance across 5 biomedical NLP tasks, encompassing information extraction (triple extraction, relation extraction), text classification, link prediction, and question-answering, leveraging over 9 datasets. For instance, in the triple extraction task, \textsc{BiomedRAG} outperforms other triple extraction systems with micro-F1 scores of 81.42 and 88.83 on GIT and ChemProt corpora, respectively.
翻訳日:2024-05-02 15:47:41 公開日:2024-05-01
# 微細な拡散モデルをよりトレーサブルにする遅延層

Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable ( http://arxiv.org/abs/2405.00466v1 )

ライセンス: Link先を確認
Haozhe Liu, Wentian Zhang, Bing Li, Bernard Ghanem, Jürgen Schmidhuber, (参考訳) 基本生成モデルは、所有者を保護し、安全規制を促進するために追跡可能であるべきである。 これを実現するため、従来のアプローチでは、バックドア透かしと呼ばれる、監督的なトリガー応答信号に基づいて識別子を埋め込んでいる。 モデルは非トリガーデータで微調整されるため、失敗する傾向があります。 我々の実験によると、この脆弱性は微調整中にわずか数層の'ビジネス'層にエネルギー的変化があったためである。 これにより、任意の任意離着陸(AIAO)戦略が生まれ、微調整による除去に対する透かしの耐性が向上する。 様々なニューラルネットワーク深度にわたるAIAOサンプルのトリガー応答対は、透かしを施したサブパスを構築するために使用することができ、モンテカルロサンプリングを用いて安定した検証結果が得られる。 また,既存の拡散モデルの入出力空間のバックドア設計法とは異なり,本手法では,マスク制御トリガ関数が生成性能を保ち,組込みバックドアの可視性を確保するために,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。 MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOのロバスト性が確認された。

Foundational generative models should be traceable to protect their owners and facilitate safety regulation. To achieve this, traditional approaches embed identifiers based on supervisory trigger-response signals, which are commonly known as backdoor watermarks. They are prone to failure when the model is fine-tuned with nontrigger data. Our experiments show that this vulnerability is due to energetic changes in only a few 'busy' layers during fine-tuning. This yields a novel arbitrary-in-arbitrary-out (AIAO) strategy that makes watermarks resilient to fine-tuning-based removal. The trigger-response pairs of AIAO samples across various neural network depths can be used to construct watermarked subpaths, employing Monte Carlo sampling to achieve stable verification results. In addition, unlike the existing methods of designing a backdoor for the input/output space of diffusion models, in our method, we propose to embed the backdoor into the feature space of sampled subpaths, where a mask-controlled trigger function is proposed to preserve the generation performance and ensure the invisibility of the embedded backdoor. Our empirical studies on the MS-COCO, AFHQ, LSUN, CUB-200, and DreamBooth datasets confirm the robustness of AIAO; while the verification rates of other trigger-based methods fall from ~90% to ~70% after fine-tuning, those of our method remain consistently above 90%.
翻訳日:2024-05-02 15:47:41 公開日:2024-05-01
# マルチマインドの力の調和: LLMルーティングから学んだこと

Harnessing the Power of Multiple Minds: Lessons Learned from LLM Routing ( http://arxiv.org/abs/2405.00467v1 )

ライセンス: Link先を確認
KV Aditya Srivatsa, Kaushal Kumar Maurya, Ekaterina Kochmar, (参考訳) LLMの急速な開発により、その能力を効率的に活用する方法を尋ねるのは当然である。 本稿では,各入力クエリを最も適した1つのLLMに振り向けることが可能かどうかを考察する。 そこで本研究では,LLMルーティングを課題推論タスクとして提案する。 我々の広範な実験は、このようなルーティングは有望であるが、すべてのシナリオで実現可能でないことを示唆しているため、このギャップを埋めるためにはより堅牢なアプローチを検討すべきである。

With the rapid development of LLMs, it is natural to ask how to harness their capabilities efficiently. In this paper, we explore whether it is feasible to direct each input query to a single most suitable LLM. To this end, we propose LLM routing for challenging reasoning tasks. Our extensive experiments suggest that such routing shows promise but is not feasible in all scenarios, so more robust approaches should be investigated to fill this gap.
翻訳日:2024-05-02 15:47:41 公開日:2024-05-01
# 教師なしレッドパンダ再同定のための特徴認識型ノイズコントラスト学習

Feature-Aware Noise Contrastive Learning For Unsupervised Red Panda Re-Identification ( http://arxiv.org/abs/2405.00468v1 )

ライセンス: Link先を確認
Jincheng Zhang, Qijun Zhao, Tie Liu, (参考訳) 個々の動物の再同定(Re-ID)を容易にするため、既存の手法は主に同一個体内での特徴的類似性を最大化し、異なる個体間の識別性を増強することに焦点を当てている。 しかし、それらの多くは依然として教師付き学習に依存しており、かなりのラベル付きデータを必要とするため、入手は困難である。 この問題を回避するために,教師なし学習ソリューションを探索するFANCL(Feature-Aware Noise Contrastive Learning)手法を提案する。 FANCLは、重要な特徴を隠蔽し、損失を計算するために2つの対照的な学習モジュールを設計するノイズ画像を生成するために、特徴認識ノイズ付加モジュールを使用している。 第一に、機能一貫性モジュールは、オリジナルの機能とノイズのある機能の間のギャップを埋めるために設計されている。 次に、ニューラルネットワークはクラスタコントラスト学習モジュールを通じてトレーニングされる。 これらのより困難な学習タスクを通じて、FANCLはレッドパンダのより深い表現を適応的に抽出することができる。 室内および屋外の両方で収集されたレッドパンダ画像に対する実験結果は、FANCLがいくつかの非教師付き手法よりも優れており、教師付き学習法に匹敵する高い性能を達成していることを証明している。

To facilitate the re-identification (Re-ID) of individual animals, existing methods primarily focus on maximizing feature similarity within the same individual and enhancing distinctiveness between different individuals. However, most of them still rely on supervised learning and require substantial labeled data, which is challenging to obtain. To avoid this issue, we propose a Feature-Aware Noise Contrastive Learning (FANCL) method to explore an unsupervised learning solution, which is then validated on the task of red panda re-ID. FANCL employs a Feature-Aware Noise Addition module to produce noised images that conceal critical features and designs two contrastive learning modules to calculate the losses. Firstly, a feature consistency module is designed to bridge the gap between the original and noised features. Secondly, the neural networks are trained through a cluster contrastive learning module. Through these more challenging learning tasks, FANCL can adaptively extract deeper representations of red pandas. The experimental results on a set of red panda images collected in both indoor and outdoor environments prove that FANCL outperforms several related state-of-the-art unsupervised methods, achieving high performance comparable to supervised learning methods.
翻訳日:2024-05-02 15:47:41 公開日:2024-05-01
# ライドベルク原子の基底状態多様体におけるフロケット幾何学的絡み合うゲート

Floquet geometric entangling gates in ground-state manifolds of Rydberg atoms ( http://arxiv.org/abs/2405.00471v1 )

ライセンス: Link先を確認
Hao-Wen Sun, Jin-Lei Wu, Shi-Lei Su, (参考訳) 我々は、リドベルク原子の基底状態多様体における量子エンタングゲートを構築するためのフロケ理論の拡張を提案する。 原子の基底状態とリドベルク状態の間の遷移のラビ周波数を周期的に制御することにより、リドベルク封鎖の体制においてエラー耐性の2量子エンタングゲートを実装できる。 フロケ理論の利用度合いによっては、制御されたゲートの忠実度が元の基準の忠実度を上回っている。 提案手法は基底状態の符号化のみを用いており,Rydberg状態を用いた符号化方式と比較すると,環境干渉の影響を受けにくく,実装が容易である。 したがって、我々のアプローチは、中性原子による幾何量子計算をさらに拡張するための、より広い応用または可能性を持つかもしれない。

We propose an extension of the Floquet theory for constructing quantum entangling gates in ground-state manifolds of Rydberg atoms. By dynamically controlling periodically modulating the Rabi frequencies of transitions between ground and Rydberg states of atoms, error-resilient two-qubit entangling gates can be implemented in the regime of Rydberg blockade. According to different degrees of Floquet theory utilization, the fidelity of the resulting controlled gates surpasses that of the original reference. Our method only uses encoding in the ground states, and compared to the original scheme using Rydberg state for encoding, it is less susceptible to environmental interference, making it more practical to implement. Therefore, our approach may have broader applications or potential for further expansion of geometric quantum computation with neutral atoms.
翻訳日:2024-05-02 15:47:41 公開日:2024-05-01
# DmADs-Net:Dense Multiscale attention and depth-supervised network for medical image segmentation

DmADs-Net: Dense multiscale attention and depth-supervised network for medical image segmentation ( http://arxiv.org/abs/2405.00472v1 )

ライセンス: Link先を確認
Zhaojin Fu, Zheng Chen, Jinjiang Li, Lu Ren, (参考訳) 深層学習は、医用画像セグメンテーションの発展に重要な貢献をしている。 畳み込みニューラルネットワークは重要な分野であり、研究者から強い注目を集めている。 多くの研究者の疲れない努力を通じて、畳み込みニューラルネットワークは、医療画像を処理するための多くの優れたアルゴリズムを生み出してきた。 これらのアルゴリズムのアイデアとアーキテクチャは、その後の技術の発展に重要なインスピレーションを与えてきたが、大規模な実験により、現在主流のディープラーニングアルゴリズムは、複雑なデータセットや異なる種類のデータセットを処理する際に、必ずしも理想的な結果が得られるとは限らないことが判明した。 これらのネットワークには、病変の局所化と特徴抽出の改善の余地がある。 そこで我々は, Dense Multiscale Attention and Depth-Supervised Network (DmADs-Net) を開発した。 異なる深さで特徴抽出にResNetを使用し、マルチスケールの畳み込み特徴注意ブロックを作成し、弱い特徴情報に対するネットワークの注意を向上する。 ローカル・フィーチャー・アテンション・ブロックは、高レベルのセマンティック情報に対するローカル・フィーチャー・アテンションを強化するために作成される。 さらに,機能融合の段階では,異なる意味情報の融合を強化するために特徴再構成と融合ブロックが作成され,異なるサイズと型からなる5つのデータセットを用いてネットワークの性能を検証した。 比較実験の結果、DmAD-Netは主流ネットワークよりも優れていた。 アブレーション実験は、生成したモジュールの有効性とネットワークアーキテクチャの合理性をさらに実証した。

Deep learning has made important contributions to the development of medical image segmentation. Convolutional neural networks, as a crucial branch, have attracted strong attention from researchers. Through the tireless efforts of numerous researchers, convolutional neural networks have yielded numerous outstanding algorithms for processing medical images. The ideas and architectures of these algorithms have also provided important inspiration for the development of later technologies.Through extensive experimentation, we have found that currently mainstream deep learning algorithms are not always able to achieve ideal results when processing complex datasets and different types of datasets. These networks still have room for improvement in lesion localization and feature extraction. Therefore, we have created the Dense Multiscale Attention and Depth-Supervised Network (DmADs-Net).We use ResNet for feature extraction at different depths and create a Multi-scale Convolutional Feature Attention Block to improve the network's attention to weak feature information. The Local Feature Attention Block is created to enable enhanced local feature attention for high-level semantic information. In addition, in the feature fusion phase, a Feature Refinement and Fusion Block is created to enhance the fusion of different semantic information.We validated the performance of the network using five datasets of varying sizes and types. Results from comparative experiments show that DmADs-Net outperformed mainstream networks. Ablation experiments further demonstrated the effectiveness of the created modules and the rationality of the network architecture.
翻訳日:2024-05-02 15:47:41 公開日:2024-05-01
# 動的グラフニューラルネットワークに関する包括的調査:モデル、フレームワーク、ベンチマーク、実験、課題

A Comprehensive Survey of Dynamic Graph Neural Networks: Models, Frameworks, Benchmarks, Experiments and Challenges ( http://arxiv.org/abs/2405.00476v1 )

ライセンス: Link先を確認
ZhengZhao Feng, Rui Wang, TianXing Wang, Mingli Song, Sai Wu, Shuibing He, (参考訳) 動的グラフニューラルネットワーク(GNN)は、時間情報とGNNを組み合わせることで、動的グラフの構造的、時間的、文脈的関係を同時にキャプチャし、様々なアプリケーションの性能を向上させる。 動的GNNの需要が拡大するにつれて、さまざまなアプリケーションニーズに対応するために、多くのモデルとフレームワークが登場している。 この領域では、様々なアプローチのパフォーマンス、強み、限界を評価する包括的な調査が必要である。 本稿では、動的GNNの徹底的な比較分析と実験的評価を提供することにより、このギャップを埋めることを目的とする。 81の動的GNNモデル、新しい分類法、12の動的GNNトレーニングフレームワーク、そして一般的に使用されるベンチマークをカバーしている。 また、6つの標準グラフデータセット上で、9つの動的GNNモデルと3つのフレームワークの試験結果についても実験を行った。 評価指標は収束精度、トレーニング効率、GPUメモリ使用量に重点を置いており、さまざまなモデルやフレームワークのパフォーマンスを徹底的に比較することができる。 分析と評価の結果から,動的GNN分野におけるモデルとフレームワークの設計を強化するための重要な課題を特定し,今後の研究の原則を提供する。

Dynamic Graph Neural Networks (GNNs) combine temporal information with GNNs to capture structural, temporal, and contextual relationships in dynamic graphs simultaneously, leading to enhanced performance in various applications. As the demand for dynamic GNNs continues to grow, numerous models and frameworks have emerged to cater to different application needs. There is a pressing need for a comprehensive survey that evaluates the performance, strengths, and limitations of various approaches in this domain. This paper aims to fill this gap by offering a thorough comparative analysis and experimental evaluation of dynamic GNNs. It covers 81 dynamic GNN models with a novel taxonomy, 12 dynamic GNN training frameworks, and commonly used benchmarks. We also conduct experimental results from testing representative nine dynamic GNN models and three frameworks on six standard graph datasets. Evaluation metrics focus on convergence accuracy, training efficiency, and GPU memory usage, enabling a thorough comparison of performance across various models and frameworks. From the analysis and evaluation results, we identify key challenges and offer principles for future research to enhance the design of models and frameworks in the dynamic GNNs field.
翻訳日:2024-05-02 15:47:41 公開日:2024-05-01
# セシウム原子を用いた2周波光マイクロ波原子時計

Dual-frequency optical-microwave atomic clocks based on cesium atoms ( http://arxiv.org/abs/2405.00478v1 )

ライセンス: Link先を確認
Tiantian Shi, Qiang Wei, Xiaomin Qin, Zhenfeng Liu, Kunkun Chen, Shiying Cao, Hangbo Shi, Zijie Liu, Jingbiao Chen, (参考訳) 唯一安定なセシウム(Cs)同位体である$^{133}$Csは、1955年に原子時計を実現するために最も研究された元素の1つである。 全ての原子時計の中で、セシウム原子時計は、現在の時間単位はCs原子のマイクロ波遷移に基づいているため、特別な位置にある。 さらに、6{\text{P}}_{3/2}$状態の長い寿命とCs蒸気セルの簡単な調製技術は、量子光学実験と原子光学実験に大きく関係しており、6{\text{S}} - 6{\text{P}}$D2遷移を光周波数標準として用いることを示唆している。 本研究では1つのレーザーを局所振動子とし、Cs原子を量子参照として、光周波数とマイクロ波周波数の2つの原子時計をそれぞれ実現した。 どちらのクロックも自由に切り替えたり、同時に出力したりできる。 蒸気セルに基づく光時計は、周波数安定性が3.89 \times {10^{ - 13}}$1 sで連続的に動作し、32 sで2.17 \times {10^{ - 13}}$に低下した。 そして、この安定化レーザーを光ポンピングしたCsビーム原子時計に印加し、レーザー周波数ノイズを低減し、周波数安定性が1.84 \times {10^{ - 12}}/\sqrt \tau $を5.99 \times {10^{ - 15}}$ at 10^5$ sとした。 本研究は、光およびマイクロ波時計の商業化と展開に魅力的な特徴を示し、より安定な集積原子時計の開発を促進する。 このようにして、この研究は将来の量子力学とレーザー物理学の基礎となる。

$^{133}$Cs, which is the only stable cesium (Cs) isotope, is one of the most investigated elements in atomic spectroscopy and was used to realize the atomic clock in 1955. Among all atomic clocks, the cesium atomic clock has a special place, since the current unit of time is based on a microwave transition in the Cs atom. In addition, the long lifetime of the $6{\text{P}}_{3/2}$ state and simple preparation technique of Cs vapor cells have great relevance to quantum and atom optics experiments, which suggests the use of the $6{\text{S}} - 6{\text{P}}$ D2 transition as an optical frequency standard. In this work, using one laser as the local oscillator and Cs atoms as the quantum reference, we realized two atomic clocks in the optical and microwave frequencies, respectively. Both clocks could be freely switched or simultaneously output. The optical clock based on the vapor cell continuously operated with a frequency stability of $3.89 \times {10^{ - 13}}$ at 1 s, decreasing to $2.17 \times {10^{ - 13}}$ at 32 s, which was frequency stabilized by modulation transfer spectroscopy and estimated by an optical comb. Then, applying this stabilized laser for an optically pumped Cs beam atomic clock to reduce the laser frequency noise, we obtained a microwave clock with a frequency stability of $1.84 \times {10^{ - 12}}/\sqrt \tau $, reaching $5.99 \times {10^{ - 15}}$ at $10^5$ s. This study demonstrates an attractive feature for the commercialization and deployment of optical and microwave clocks and will guide further development of integrated atomic clocks with better stability. Thus, this study lays the groundwork for future quantum metrology and laser physics.
翻訳日:2024-05-02 15:47:41 公開日:2024-05-01
# 視覚的質問応答の強化:コンボリューションによる比較分析とテキスト特徴抽出

Enhanced Visual Question Answering: A Comparative Analysis and Textual Feature Extraction Via Convolutions ( http://arxiv.org/abs/2405.00479v1 )

ライセンス: Link先を確認
Zhilin Zhang, (参考訳) 近年,VQA (Visual Question Answering, VQA) が注目され, トランスフォーマーなどの先進モデルの導入によるVQAの精度向上を目指す研究が活発化している。 このような関心の高まりにもかかわらず、VQAにおけるテキストのモダリティの比較分析と影響について、特にモデルの複雑さと性能への影響について限定的な調査がなされている。 本研究では,長い依存機構を利用する複雑なテキストモデルと,確立されたVQAフレームワーク内の局所的なテキスト機能に着目した簡易なモデルとの包括的な比較を行う。 以上の結果から,複雑なテキストエンコーダを用いることは,VQA-v2データセットの最適手法ではないことが明らかとなった。 そこで本研究では,畳み込み層を組み込んだ改良モデルであるConvGRUを導入し,質問文の表現性を高めた。 VQA-v2データセットでテストされたConvGRUは、パラメータの複雑さを大幅に増加させることなく、より良いパフォーマンスを実現する。

Visual Question Answering (VQA) has emerged as a highly engaging field in recent years, attracting increasing research efforts aiming to enhance VQA accuracy through the deployment of advanced models such as Transformers. Despite this growing interest, there has been limited exploration into the comparative analysis and impact of textual modalities within VQA, particularly in terms of model complexity and its effect on performance. In this work, we conduct a comprehensive comparison between complex textual models that leverage long dependency mechanisms and simpler models focusing on local textual features within a well-established VQA framework. Our findings reveal that employing complex textual encoders is not invariably the optimal approach for the VQA-v2 dataset. Motivated by this insight, we introduce an improved model, ConvGRU, which incorporates convolutional layers to enhance the representation of question text. Tested on the VQA-v2 dataset, ConvGRU achieves better performance without substantially increasing parameter complexity.
翻訳日:2024-05-02 15:47:41 公開日:2024-05-01
# PackVFL: 垂直的フェデレーション学習のための効率的なHEパッキング

PackVFL: Efficient HE Packing for Vertical Federated Learning ( http://arxiv.org/abs/2405.00482v1 )

ライセンス: Link先を確認
Liu Yang, Shuowei Cai, Di Chai, Junxue Zhang, Han Tian, Yilun Jin, Kun Guo, Kai Chen, Qiang Yang, (参考訳) セキュアな分散機械学習の必須ツールとして、同相暗号(HE)に基づく垂直連合学習(VFL)は、データインフレーションと時間消費操作による深刻な効率上の問題に悩まされる。 そこで本研究では,既存の HE ベースの VFL アルゴリズムを高速化するための HE (PackedHE) に基づく効率的な VFL フレームワークである PackVFL を提案する。 PackVFLは、複数のクリアテキストを1つの暗号文にまとめ、シングルインストラクション・マルチデータ(SIMD)スタイルの並列処理をサポートする。 本稿では,HEベースのVFLにおける暗号文計算時間の大部分を占めるため,高性能行列乗算法 (MatMult) の設計に着目する。 さらに、パッケージング方法のわずかな違いが計算コストや通信コストに大きく影響する可能性があるため、PackedHEではMatMult法の開発も困難である。 ドメイン固有の設計がなければ、SOTA MatMultメソッドを直接適用することは困難である。 ですから、私たちは3倍のデザインを作ります。 1)MatchMultの現在の設計空間を体系的に探求し、ガイダンスを提供するために既存のアプローチの複雑さを定量化する。 2) VFLの特性に応じたハイブリッドMateMult法を提案する。 3)本手法を代表VFLアルゴリズムに適応的に適用し,アルゴリズム特性を利用して効率を向上する。 VFLのバッチサイズ、特徴寸法、モデルサイズが大きければ大きいほど、PackVFLは一貫してパフォーマンスを向上します。 PackVFLは、既存のVFLアルゴリズムを新しい高さまで拡張し、最大51.52倍のエンドツーエンドのスピードアップを実現している。 これはSOTA MatMult法の直接適用に比べて34.51倍のスピードアップを示している。

As an essential tool of secure distributed machine learning, vertical federated learning (VFL) based on homomorphic encryption (HE) suffers from severe efficiency problems due to data inflation and time-consuming operations. To this core, we propose PackVFL, an efficient VFL framework based on packed HE (PackedHE), to accelerate the existing HE-based VFL algorithms. PackVFL packs multiple cleartexts into one ciphertext and supports single-instruction-multiple-data (SIMD)-style parallelism. We focus on designing a high-performant matrix multiplication (MatMult) method since it takes up most of the ciphertext computation time in HE-based VFL. Besides, devising the MatMult method is also challenging for PackedHE because a slight difference in the packing way could predominantly affect its computation and communication costs. Without domain-specific design, directly applying SOTA MatMult methods is hard to achieve optimal. Therefore, we make a three-fold design: 1) we systematically explore the current design space of MatMult and quantify the complexity of existing approaches to provide guidance; 2) we propose a hybrid MatMult method according to the unique characteristics of VFL; 3) we adaptively apply our hybrid method in representative VFL algorithms, leveraging distinctive algorithmic properties to further improve efficiency. As the batch size, feature dimension and model size of VFL scale up to large sizes, PackVFL consistently delivers enhanced performance. Empirically, PackVFL propels existing VFL algorithms to new heights, achieving up to a 51.52X end-to-end speedup. This represents a substantial 34.51X greater speedup compared to the direct application of SOTA MatMult methods.
翻訳日:2024-05-02 15:47:41 公開日:2024-05-01
# 完全ディープフェイクの予測:再均衡ディープフェイク検出プロトコルによるアイデンティティ認識アーチファクト非依存検出

In Anticipation of Perfect Deepfake: Identity-anchored Artifact-agnostic Detection under Rebalanced Deepfake Detection Protocol ( http://arxiv.org/abs/2405.00483v1 )

ライセンス: Link先を確認
Wei-Han Wang, Chin-Yuan Yeh, Hsi-Wen Chen, De-Nian Yang, Ming-Syan Chen, (参考訳) 深層生成モデルが進むにつれて、我々は、識別可能な人工物やノイズを発生させない「完璧」を実現するディープフェイクを期待する。 しかし、現在のディープフェイク検出器は、意図的または不注意に、これらのアーティファクトを検出に頼っている。 このギャップを埋めるために、実例と偽例が類似したアーティファクトを持つバランスの取れたシナリオ下で、ストレステスト検出にRDDP(Re Balanced Deepfake Detection Protocol)を導入する。 RDDP-WHITEHATはホワイトハットのディープフェイクアルゴリズムを用いて「自己ディープフェイク(self-deepfakes)」を制作し、基礎となるアイデンティティに類似した本物のポートレートビデオを生成するが、同様のアーティファクトをディープフェイクビデオに転送するRDDP-SURROGATEでは、サロゲート関数(例えばガウスノイズ)を使用して、等価ノイズを導入し、真偽と偽のサンプルの両方を処理する。 本物と一致した完璧なディープフェイクビデオを検出するために、私たちはID-Minerを紹介します。 識別に基づく検知器として、ビデオと基準映像を比較して認証する。 ID-Minerは、フレームレベルでのアーチファクト非依存の損失とビデオレベルでのアイデンティティ非認識の損失を伴って、気を散らす変化の中で、ID信号を効果的に選別する。 従来の2つのディープフェイクデータセットとRDDPによる12のベースライン検出器とID-Minerを比較した大規模な実験を行い、さらに質的研究を行い、本手法の優位性と、完璧なディープフェイクに対抗するために設計された検出器の必要性を確認した。

As deep generative models advance, we anticipate deepfakes achieving "perfection"-generating no discernible artifacts or noise. However, current deepfake detectors, intentionally or inadvertently, rely on such artifacts for detection, as they are exclusive to deepfakes and absent in genuine examples. To bridge this gap, we introduce the Rebalanced Deepfake Detection Protocol (RDDP) to stress-test detectors under balanced scenarios where genuine and forged examples bear similar artifacts. We offer two RDDP variants: RDDP-WHITEHAT uses white-hat deepfake algorithms to create 'self-deepfakes,' genuine portrait videos with the resemblance of the underlying identity, yet carry similar artifacts to deepfake videos; RDDP-SURROGATE employs surrogate functions (e.g., Gaussian noise) to process both genuine and forged examples, introducing equivalent noise, thereby sidestepping the need of deepfake algorithms. Towards detecting perfect deepfake videos that aligns with genuine ones, we present ID-Miner, a detector that identifies the puppeteer behind the disguise by focusing on motion over artifacts or appearances. As an identity-based detector, it authenticates videos by comparing them with reference footage. Equipped with the artifact-agnostic loss at frame-level and the identity-anchored loss at video-level, ID-Miner effectively singles out identity signals amidst distracting variations. Extensive experiments comparing ID-Miner with 12 baseline detectors under both conventional and RDDP evaluations with two deepfake datasets, along with additional qualitative studies, affirm the superiority of our method and the necessity for detectors designed to counter perfect deepfakes.
翻訳日:2024-05-02 15:37:50 公開日:2024-05-01
# 光の変調モーメントにおけるスピンハミルトニアン

Spin Hamiltonians in the Modulated Momenta of Light ( http://arxiv.org/abs/2405.00484v1 )

ライセンス: Link先を確認
Juan Feng, Zengya Li, Luqi Yuan, Erez Hasman, Bo Wang, Xianfeng Chen, (参考訳) 異なるスピンハミルトニアンの基底状態を見つけることができるフォトニックソルバは、多くの対話的な物理系や組合せ最適化問題の研究に利用できる。 ここでは、空間光輸送によるスピンハミルトニアンの実空間対応を確立する。 実空間スピン相互作用は光の運動量-空間の流れを変調することによって決定される。 この原理は一般化されたプランシェレルの定理として定式化され、任意の変位依存スピン相互作用の基底状態を見つけるための単純な光学シミュレータを実装できる。 特に、この原理を用いて、J1-J2-J3モデルからエキゾチックな磁気位相図を明らかにし、また、XYモデルから渦を介するベレジンスキー-コステリッツ-Thoulessのダイナミクスも観察する。 これらの実験は光の運動量空間からスピン相互作用を微妙に制御することで高い計算精度を示し、新しい物理効果を探求する有望なスキームを提供する。

Photonic solvers that are able to find the ground states of different spin Hamiltonians can be used to study many interactive physical systems and combinatorial optimization problems. Here, we establish a real-and-momentum space correspondence of spin Hamiltonians by spatial light transport. The real-space spin interaction is determined by modulating the momentum-space flow of light. This principle is formulated as a generalized Plancherel theorem, allowing us to implement a simple optical simulator that can find the ground states for any displacement-dependent spin interactions. Particularly, we use this principle to reveal the exotic magnetic phase diagram from a J1-J2-J3 model, and we also observe the vortex-mediated Berezinskii-Kosterlitz-Thouless dynamics from the XY model. These experiments exhibit high calculation precision by subtly controlling spin interactions from the momentum space of light, offering a promising scheme to explore novel physical effects.
翻訳日:2024-05-02 15:37:50 公開日:2024-05-01
# 捕虜のピラミッド

The Pyramid of Captions ( http://arxiv.org/abs/2405.00485v1 )

ライセンス: Link先を確認
Delong Chen, Samuel Cahyawijaya, Etsuko Ishii, Ho Shu Chan, Yejin Bang, Pascale Fung, (参考訳) 本稿では,画像キャプションを表現学習タスクとして扱うことで,画像キャプションのための形式的情報理論フレームワークを提案する。 我々のフレームワークは,タスク満足度,最小冗長性,人間解釈可能性という3つの主要な目標を定義している。 この基盤を基盤として,ズームイン画像パッチの局所的なキャプションを生成し,大きな言語モデルを用いたグローバルキャプション情報と統合することにより,キャプションピラミッドを構成する新しいキャプションピラミッド(PoCa)手法を提案する。 このアプローチは、局所パッチの詳細な検査は、幻覚の修正や欠落した詳細の追加によって、エラーリスクを低減し、グローバルキャプションにおける不正確な問題に対処する、という直感を利用する。 理論的な枠組みに基づいて、この直観を定式化し、特定の仮定の下でのPoCaの有効性を示す公式な証明を提供する。 様々な画像キャプションモデルと大きな言語モデルによる実証テストにより、PoCaは、簡潔さと解釈可能性を維持しながら、より情報的で意味的に整合したキャプションを一貫して得ることが示された。

We introduce a formal information-theoretic framework for image captioning by regarding it as a representation learning task. Our framework defines three key objectives: task sufficiency, minimal redundancy, and human interpretability. Building upon this foundation, we propose a novel Pyramid of Captions (PoCa) method, which constructs caption pyramids by generating localized captions for zoomed-in image patches and integrating them with global caption information using large language models. This approach leverages intuition that the detailed examination of local patches can reduce error risks and address inaccuracies in global captions, either by correcting the hallucination or adding missing details. Based on our theoretical framework, we formalize this intuition and provide formal proof demonstrating the effectiveness of PoCa under certain assumptions. Empirical tests with various image captioning models and large language models show that PoCa consistently yields more informative and semantically aligned captions, maintaining brevity and interpretability.
翻訳日:2024-05-02 15:37:50 公開日:2024-05-01
# ニューラル加算モデルによる説明可能な自動格子

Explainable Automatic Grading with Neural Additive Models ( http://arxiv.org/abs/2405.00489v1 )

ライセンス: Link先を確認
Aubrey Condor, Zachary Pardos, (参考訳) ASAG(Automatic Short answer grading)モデルを使用することは、カリキュラムにオープンなアイテムを頻繁に組み込むように教育者に促す一方で、グレーティングの時間的負担を軽減するのに役立つ。 しかし、現在の最先端ASAGモデルは、しばしば「ブラックボックス」と表現される大きなニューラルネットワーク(NN)であり、どの入力の特徴が生産された出力に重要かの説明を与えていない。 この説明不能な性質は、教師や生徒が解釈しようとしたり、自動生成の成績から学ぼうとするとイライラすることがある。 そこで我々は,NNの性能と付加モデルの説明可能性を組み合わせた,ニューラルネットワーク付加モデル(Neural Additive Model)と呼ばれるモデル実験を行った。 我々は、学習科学の知識統合(KI)フレームワークを使用して、特徴工学を指導し、学生が応答に特定のアイデアを含むかどうかを反映したインプットを作成する。 我々は、NAMがKIルーブリックを用いてヒトスコアラーを誘導するので、事前に定義されたアイデアを特徴として含める(または排除する)ことは、予測力と解釈可能性に十分である、と仮定する。 我々は、NAMの性能を他の説明可能なモデルであるロジスティック回帰と比較し、同じ特徴を用いて、特徴工学を必要としない説明不可能なニューラルモデルであるDeBERTaと比較する。

The use of automatic short answer grading (ASAG) models may help alleviate the time burden of grading while encouraging educators to frequently incorporate open-ended items in their curriculum. However, current state-of-the-art ASAG models are large neural networks (NN) often described as "black box", providing no explanation for which characteristics of an input are important for the produced output. This inexplicable nature can be frustrating to teachers and students when trying to interpret, or learn from an automatically-generated grade. To create a powerful yet intelligible ASAG model, we experiment with a type of model called a Neural Additive Model that combines the performance of a NN with the explainability of an additive model. We use a Knowledge Integration (KI) framework from the learning sciences to guide feature engineering to create inputs that reflect whether a student includes certain ideas in their response. We hypothesize that indicating the inclusion (or exclusion) of predefined ideas as features will be sufficient for the NAM to have good predictive power and interpretability, as this may guide a human scorer using a KI rubric. We compare the performance of the NAM with another explainable model, logistic regression, using the same features, and to a non-explainable neural model, DeBERTa, that does not require feature engineering.
翻訳日:2024-05-02 15:37:50 公開日:2024-05-01
# データ中毒に対するビザンチンロバスト最適化の意義について

On the Relevance of Byzantine Robust Optimization Against Data Poisoning ( http://arxiv.org/abs/2405.00491v1 )

ライセンス: Link先を確認
Sadegh Farhadkhani, Rachid Guerraoui, Nirupam Gupta, Rafael Pinot, (参考訳) 機械学習(ML)の成功は、典型的には異質なソースから収集され、巨大なコンピュータ機器(「.em workers」とも呼ばれる)のネットワークで処理される大量のデータと密接に関連している。 正確性以外にも、医療や自動運転といった重要な領域におけるMLの使用は、データ中毒に対する堅牢性を要求する。 {\em Byzantine ML} の問題は、労働者(グローバルデータセットの一部を保存する)が所定のアルゴリズムから任意に逸脱できる分散ML環境を考えることによって、これらの堅牢性問題を公式化する。 この問題は理論的な観点からは多くの注目を集めているが、現実的な欠点(労働者の振る舞いが局所的に制約されている)に対処する上での実践的重要性はいまだ不明である。 労働者の局所的なデータセットが中毒になるという、一見弱い脅威モデルの方が、より合理的である、と論じられている。 より広範な障害行為を許容する一方で、Byzantine MLは、正確な意味では、より弱いデータ中毒脅威モデルの下でさえ最適なソリューションを得られることを証明している。 そして、一部の労働者が完全に有害な局所データ、すなわちデータセットが完全に破損し、残りの労働者が部分的に有害な局所データ、すなわちローカルなデータセットのごく一部が破損する一般データ中毒モデルについて検討する。 我々は、ビザンチン・ロバスト方式が、これらの2種類のデータ中毒に対して最適な解決策をもたらすことを証明し、労働者が不均一なローカルデータを持っている場合、前者がより有害であることを示す。

The success of machine learning (ML) has been intimately linked with the availability of large amounts of data, typically collected from heterogeneous sources and processed on vast networks of computing devices (also called {\em workers}). Beyond accuracy, the use of ML in critical domains such as healthcare and autonomous driving calls for robustness against {\em data poisoning}and some {\em faulty workers}. The problem of {\em Byzantine ML} formalizes these robustness issues by considering a distributed ML environment in which workers (storing a portion of the global dataset) can deviate arbitrarily from the prescribed algorithm. Although the problem has attracted a lot of attention from a theoretical point of view, its practical importance for addressing realistic faults (where the behavior of any worker is locally constrained) remains unclear. It has been argued that the seemingly weaker threat model where only workers' local datasets get poisoned is more reasonable. We prove that, while tolerating a wider range of faulty behaviors, Byzantine ML yields solutions that are, in a precise sense, optimal even under the weaker data poisoning threat model. Then, we study a generic data poisoning model wherein some workers have {\em fully-poisonous local data}, i.e., their datasets are entirely corruptible, and the remainders have {\em partially-poisonous local data}, i.e., only a fraction of their local datasets is corruptible. We prove that Byzantine-robust schemes yield optimal solutions against both these forms of data poisoning, and that the former is more harmful when workers have {\em heterogeneous} local data.
翻訳日:2024-05-02 15:37:50 公開日:2024-05-01
# 大規模言語モデルの創造性パラメータは温度か?

Is Temperature the Creativity Parameter of Large Language Models? ( http://arxiv.org/abs/2405.00492v1 )

ライセンス: Link先を確認
Max Peeperkorn, Tom Kouwenhoven, Dan Brown, Anna Jordanous, (参考訳) 大規模言語モデル(LLM)は、あらゆる種類の創造的なタスクに適用され、そのアウトプットは美しいものから特異なもの、パスティッシュまで様々である。 LLMの温度パラメータはランダム性の量を調節し、より多様な出力をもたらすため、創造性パラメータであるとしばしば主張される。 本稿では,所定の文脈,モデル,プロンプトを有する物語生成タスクを用いて,この主張を考察する。 具体的には、物語生成における創造性に必要な4つの条件(新規性、典型性、凝集性、コヒーレンス)を用いて、異なる温度値に対するLLM出力の実証分析を行う。 温度は新鮮さと弱い相関がみられ、当然ながら不整合と適度に相関するが、密着性や典型性には関係がない。 しかし、創造性に対する温度の影響は「創造性パラメータ」の主張よりも遥かに微妙で弱い。 最後に、温度パラメータの変更によるチャンスに頼るのではなく、より制御されたLCM創造性を実現するためのアイデアについて議論する。

Large language models (LLMs) are applied to all sorts of creative tasks, and their outputs vary from beautiful, to peculiar, to pastiche, into plain plagiarism. The temperature parameter of an LLM regulates the amount of randomness, leading to more diverse outputs; therefore, it is often claimed to be the creativity parameter. Here, we investigate this claim using a narrative generation task with a predetermined fixed context, model and prompt. Specifically, we present an empirical analysis of the LLM output for different temperature values using four necessary conditions for creativity in narrative generation: novelty, typicality, cohesion, and coherence. We find that temperature is weakly correlated with novelty, and unsurprisingly, moderately correlated with incoherence, but there is no relationship with either cohesion or typicality. However, the influence of temperature on creativity is far more nuanced and weak than suggested by the "creativity parameter" claim; overall results suggest that the LLM generates slightly more novel outputs as temperatures get higher. Finally, we discuss ideas to allow more controlled LLM creativity, rather than relying on chance via changing the temperature parameter.
翻訳日:2024-05-02 15:37:50 公開日:2024-05-01
# GOLD:自然言語記述による幾何問題解決

GOLD: Geometry Problem Solver with Natural Language Description ( http://arxiv.org/abs/2405.00494v1 )

ライセンス: Link先を確認
Jiaxin Zhang, Yashar Moshfeghi, (参考訳) 人工知能(AI)における自動幾何問題解決の課題に対処するには、多モード情報と数学を理解することが必要である。 現在の手法は、効率的な問題解決を妨げる幾何学図の正確な解釈に苦慮している。 この問題に対処するために,自然言語記述(GOLD)モデルを用いた幾何問題 sOlver を提案する。 GOLDは図内のシンボルと幾何学的プリミティブを別々に処理することで、幾何学的関係の抽出を強化する。 その後、抽出した関係を自然言語記述に変換し、大きな言語モデルを効率的に利用して幾何学数学の問題を解く。 実験により、GOLDモデルは、計算および証明サブセットの精度を12.7%と42.1%向上させることで、以前のUniGeoデータセット上でのベストメソッドであるGeoformerモデルよりも優れていることが示された。 さらに、PGPS9KとGeometry3Kデータセットでそれぞれ1.8%と3.2%の精度向上を得ることで、以前の最高のモデルであるPGPSNetを上回っている。

Addressing the challenge of automated geometry math problem-solving in artificial intelligence (AI) involves understanding multi-modal information and mathematics. Current methods struggle with accurately interpreting geometry diagrams, which hinders effective problem-solving. To tackle this issue, we present the Geometry problem sOlver with natural Language Description (GOLD) model. GOLD enhances the extraction of geometric relations by separately processing symbols and geometric primitives within the diagram. Subsequently, it converts the extracted relations into natural language descriptions, efficiently utilizing large language models to solve geometry math problems. Experiments show that the GOLD model outperforms the Geoformer model, the previous best method on the UniGeo dataset, by achieving accuracy improvements of 12.7% and 42.1% in calculation and proving subsets. Additionally, it surpasses the former best model on the PGPS9K and Geometry3K datasets, PGPSNet, by obtaining accuracy enhancements of 1.8% and 3.2%, respectively.
翻訳日:2024-05-02 15:37:50 公開日:2024-05-01
# KVP10k : ビジネス文書におけるキーバリューペア抽出のための総合データセット

KVP10k : A Comprehensive Dataset for Key-Value Pair Extraction in Business Documents ( http://arxiv.org/abs/2405.00505v1 )

ライセンス: Link先を確認
Oshri Naparstek, Roi Pony, Inbar Shapira, Foad Abo Dahood, Ophir Azulai, Yevgeny Yaroker, Nadav Rubinstein, Maksym Lysak, Peter Staar, Ahmed Nassar, Nikolaos Livathinos, Christoph Auer, Elad Amrani, Idan Friedman, Orit Prince, Yevgeny Burshtein, Adi Raz Goldfarb, Udi Barzelay, (参考訳) 近年,ビジネス文書から情報を取り出すという課題が重要課題として浮上し,多くのドメインにまたがる応用の発見が進んでいる。 この取り組みは産業とアカデミーの両方からかなりの関心を集め、現在の技術的景観におけるその重要性を強調した。 この領域のほとんどのデータセットは、キー情報抽出(KIE)に重点を置いている。 既存のデータセットやベンチマークとは異なり、当社では、事前に定義されたキーに頼ることなくキーバリューペア(KVP)を発見し、さまざまなテンプレートや複雑なレイアウトをナビゲートすることに重点を置いています。 このタスクは、主に非決定的なKVP抽出に適した包括的なデータセットとベンチマークがないため、ユニークな課題を提示する。 このギャップに対処するために、我々はKVP抽出用に特別に設計された新しいデータセットとベンチマークであるKVP10kを紹介する。 データセットには、リッチな注釈付き画像10707が含まれている。 我々のベンチマークでは、KIEの要素とKVPを1つのタスクで組み合わせた新しい挑戦的なタスクも導入しています。 KVP10kは、複雑なビジネス文書から情報抽出の分野での進歩の道を開くとともに、データの多様性と豊富な詳細なアノテーションを分離する。

In recent years, the challenge of extracting information from business documents has emerged as a critical task, finding applications across numerous domains. This effort has attracted substantial interest from both industry and academy, highlighting its significance in the current technological landscape. Most datasets in this area are primarily focused on Key Information Extraction (KIE), where the extraction process revolves around extracting information using a specific, predefined set of keys. Unlike most existing datasets and benchmarks, our focus is on discovering key-value pairs (KVPs) without relying on predefined keys, navigating through an array of diverse templates and complex layouts. This task presents unique challenges, primarily due to the absence of comprehensive datasets and benchmarks tailored for non-predetermined KVP extraction. To address this gap, we introduce KVP10k , a new dataset and benchmark specifically designed for KVP extraction. The dataset contains 10707 richly annotated images. In our benchmark, we also introduce a new challenging task that combines elements of KIE as well as KVP in a single task. KVP10k sets itself apart with its extensive diversity in data and richly detailed annotations, paving the way for advancements in the field of information extraction from complex business documents.
翻訳日:2024-05-02 15:37:50 公開日:2024-05-01
# 非線形誘導型RGB-Dレジストレーションの教師なし学習

NeRF-Guided Unsupervised Learning of RGB-D Registration ( http://arxiv.org/abs/2405.00507v1 )

ライセンス: Link先を確認
Zhinan Yu, Zheng Qin, Yijie Tang, Yongjun Wang, Renjiao Yi, Chenyang Zhu, Kai Xu, (参考訳) 本稿では,地味なポーズ監視を伴わない堅牢なRGB-D登録モデルのトレーニングに焦点をあてる。 既存の手法は通常、異なるレンダリングに基づくペアワイズトレーニング戦略を採用しており、これは2つの登録フレーム間の光度と幾何的一貫性を監督するものである。 しかし、このフレーム・ツー・フレーム・フレームワークは、照明の変化、幾何学的閉塞、反射材料などの要因により、多面的な一貫性に悩まされている。 本稿では,教師なしRGB-D登録のための新しいフレーム・ツー・モデル最適化フレームワークNeRF-URを提案する。 フレーム間整合性の代わりに、シーンのグローバルモデルとしてニューラル放射場(NeRF)を活用し、入力とNeRFレンダリングフレーム間の整合性を利用してポーズ最適化を行う。 この設計は、マルチビュー一貫性の低いシナリオにおける堅牢性を大幅に向上させ、登録モデルのためのより良い学習信号を提供する。 さらに、NeRF最適化をブートストラップするために、フォトリアリスティックシミュレータを通して合成データセットSim-RGBDを作成し、登録モデルをウォームアップする。 まず、Sim-RGBDで登録モデルをトレーニングし、その後、実データで教師なし微調整を行うことで、本フレームワークは、特徴抽出能力の蒸留とシミュレーションから現実への登録を可能にする。 提案手法は,2つの屋内RGB-DデータセットであるScanNetと3DMatchにおいて,最先端の手法よりも優れている。 コードとモデルは、紙の再生のためにリリースされます。

This paper focuses on training a robust RGB-D registration model without ground-truth pose supervision. Existing methods usually adopt a pairwise training strategy based on differentiable rendering, which enforces the photometric and the geometric consistency between the two registered frames as supervision. However, this frame-to-frame framework suffers from poor multi-view consistency due to factors such as lighting changes, geometry occlusion and reflective materials. In this paper, we present NeRF-UR, a novel frame-to-model optimization framework for unsupervised RGB-D registration. Instead of frame-to-frame consistency, we leverage the neural radiance field (NeRF) as a global model of the scene and use the consistency between the input and the NeRF-rerendered frames for pose optimization. This design can significantly improve the robustness in scenarios with poor multi-view consistency and provides better learning signal for the registration model. Furthermore, to bootstrap the NeRF optimization, we create a synthetic dataset, Sim-RGBD, through a photo-realistic simulator to warm up the registration model. By first training the registration model on Sim-RGBD and later unsupervisedly fine-tuning on real data, our framework enables distilling the capability of feature extraction and registration from simulation to reality. Our method outperforms the state-of-the-art counterparts on two popular indoor RGB-D datasets, ScanNet and 3DMatch. Code and models will be released for paper reproduction.
翻訳日:2024-05-02 15:37:50 公開日:2024-05-01
# 絡み合い分布に対するノイズレス損失抑制

Noiseless Loss Suppression for Entanglement Distribution ( http://arxiv.org/abs/2405.00510v1 )

ライセンス: Link先を確認
Cory M. Nunn, Daniel E. Jones, Todd B. Pittman, Brian T. Kirby, (参考訳) Mi\v{c}uda et al (arXiv:1206.2852v1) による最近の研究は、ノイズのない減衰とのペアリングノイズレス増幅は、量子状態の直接伝送における損失項を条件的に抑制することができることを示唆している。 ここでは、この研究を絡み合った状態に拡張する: 第一に、二分極状態、特に二分極真空(TMSV)とNOON状態、第二に、Wおよびグリーンベルガー・ホルン・ザイリンガー状態(GHZ)に集中して、M粒子状態を調べる。 元の提案と類似して,本研究は各事例において,純損失チャネルの伝送前後における減衰と増幅の正しい組み合わせが初期量子状態を復元できることを実証した。 しかし、W 状態と NOON 状態の両方の場合、ノイズのない減衰は冗長であり、損失項抑制を達成できない。 本研究は,GHZとW状態の絡み合いの違いを手術例で示す。

Recent work by Mi\v{c}uda et al. (arXiv:1206.2852v1) suggests that pairing noiseless amplification with noiseless attenuation can conditionally suppress loss terms in the direct transmission of quantum states. Here we extend this work to entangled states: first, we explore bipartite states, specifically the two-mode squeezed vacuum (TMSV) and NOON states; and second, we examine M-partite states, concentrating on W and Greenberger-Horne-Zeilinger (GHZ) states. In analogy with the original proposal, our results demonstrate that in each case under consideration, a correct combination of attenuation and amplification techniques before and after transmission through a pure loss channel can restore the initial quantum state. However, we find that for both W and NOON states, the noiseless attenuation is redundant and not required to achieve loss term suppression. This work clarifies the role of noiseless attenuation when paired with noiseless amplification for entanglement distribution and provides an operational example of how GHZ and W state entanglement differs.
翻訳日:2024-05-02 15:37:50 公開日:2024-05-01
# 埋め込みスペースを順番に取得する: 森林モニタリングのためのドメイン適応型回帰

Get Your Embedding Space in Order: Domain-Adaptive Regression for Forest Monitoring ( http://arxiv.org/abs/2405.00514v1 )

ライセンス: Link先を確認
Sizhuo Li, Dimitri Gominski, Martin Brandt, Xiaoye Tong, Philippe Ciais, (参考訳) 画像レベルの回帰は、視覚領域とラベルシフトが一般化を妨げる中核的な課題である地球観測において重要な課題である。 しかし、適切なデータセットがないため、リモートセンシングデータによるドメイン間の回帰は未検討のままである。 我々は,3つの森林関連回帰タスクを持つ5カ国で,航空・衛星画像を用いた新しいデータセットを導入した。 実世界の応用的関心に合わせるために、トレーニング中に対象ドメインの事前情報が得られず、テスト中に限られた情報でモデルが適応されるような制限的な設定による手法を比較する。 順序関係がより一般化されるという仮定に基づいて、低データ状態におけるトランスダクションの強力なベースラインとして回帰のための多様体拡散を提案する。 我々の比較では、ドメイン間の回帰における帰納的手法と帰納的手法の比較の利点を強調した。

Image-level regression is an important task in Earth observation, where visual domain and label shifts are a core challenge hampering generalization. However, cross-domain regression with remote sensing data remains understudied due to the absence of suited datasets. We introduce a new dataset with aerial and satellite imagery in five countries with three forest-related regression tasks. To match real-world applicative interests, we compare methods through a restrictive setup where no prior on the target domain is available during training, and models are adapted with limited information during testing. Building on the assumption that ordered relationships generalize better, we propose manifold diffusion for regression as a strong baseline for transduction in low-data regimes. Our comparison highlights the comparative advantages of inductive and transductive methods in cross-domain regression.
翻訳日:2024-05-02 15:37:50 公開日:2024-05-01
# HDマップフリー自律運転のためのGAD生成学習

GAD-Generative Learning for HD Map-Free Autonomous Driving ( http://arxiv.org/abs/2405.00515v1 )

ライセンス: Link先を確認
Weijian Sun, Yanbo Jia, Qi Zeng, Zihao Liu, Jiang Liao, Yue Li, Xianfeng Li, Bolin Zhao, (参考訳) 近年、ディープラーニングベースの技術は、認識モジュールを中心に、大量生産のための自動運転ソフトウェアスタックに広く採用されており、この手法を予測モジュールに拡張する作業も行われている。 しかし、下流の計画および制御モジュールは、二次プログラミングやモデル予測制御のような最適化に基づく手法に支配される、手作りの厳密なルールで設計されている。 これにより、コーナーケースは手作りのルールを列挙するだけでは解決できないという、自律運転システムのパフォーマンスボトルネックが生じる。 本稿では,都市部における自動運転の現実的な応用におけるルールベース手法の欠如を克服する試みとともに,予測,決定,計画モジュールをもたらすディープラーニングベースのアプローチを提案する。 私たちが提案したDNNモデルは、人間の運転データ10時間でのみトレーニングされており、現在市場に出回っているすべての大量生産ADAS機能をサポートしている。 この方法は、工場対応のセンサーセットと計算プラットフォームを変更することなく、ジユーテストカーに展開する。 実現可能性、ユーザビリティ、および商業的可能性について、この記事で示します。

Deep-learning-based techniques have been widely adopted for autonomous driving software stacks for mass production in recent years, focusing primarily on perception modules, with some work extending this method to prediction modules. However, the downstream planning and control modules are still designed with hefty handcrafted rules, dominated by optimization-based methods such as quadratic programming or model predictive control. This results in a performance bottleneck for autonomous driving systems in that corner cases simply cannot be solved by enumerating hand-crafted rules. We present a deep-learning-based approach that brings prediction, decision, and planning modules together with the attempt to overcome the rule-based methods' deficiency in real-world applications of autonomous driving, especially for urban scenes. The DNN model we proposed is solely trained with 10 hours of human driver data, and it supports all mass-production ADAS features available on the market to date. This method is deployed onto a Jiyue test car with no modification to its factory-ready sensor set and compute platform. the feasibility, usability, and commercial potential are demonstrated in this article.
翻訳日:2024-05-02 15:37:50 公開日:2024-05-01
# WebAIのナビゲーション: 大規模言語モデルと強化学習によるWebタスク完成のためのエージェントの訓練

Navigating WebAI: Training Agents to Complete Web Tasks with Large Language Models and Reinforcement Learning ( http://arxiv.org/abs/2405.00516v1 )

ライセンス: Link先を確認
Lucas-Andreï Thil, Mirela Popa, Gerasimos Spanakis, (参考訳) 言語モデルの最近の進歩は、Webナビゲーションのような様々な自然言語処理(NLP)タスクにおいて顕著に改善されている。 スーパーバイザード・ラーニング(SL)アプローチは,従来の手法に比べてトレーニングデータが少なく,優れたパフォーマンスを実現している。 しかし、これらのSLモデルでは、強化学習(RL)アプローチと比較して、より優れた結果が得られている。 本論文では, SLとRLの手法をMiniWoBベンチマークに組み合わせ, 両手法の強みを利用する手法を提案する。 また,従来のモデルによるHTMLコンテンツ理解の限界にも対処し,その基盤となる構造を理解するのではなく,対象要素を記憶する傾向を明らかにした。 そこで本研究では, 真の理解を深め, 結果の新たなベースラインを提示する手法を提案する。 実験により, 従来のSL法よりも少ないデータ量で性能差を小さくし, SLの平均精度が43.58倍, マルチモーダルRL法が36.69倍となることを示した。 本研究では,今後のWebナビゲーションの方向性を定め,コンピュータタスクにおける言語モデリングの限界と可能性について考察する。

Recent advancements in language models have demonstrated remarkable improvements in various natural language processing (NLP) tasks such as web navigation. Supervised learning (SL) approaches have achieved impressive performance while utilizing significantly less training data compared to previous methods. However, these SL-based models fall short when compared to reinforcement learning (RL) approaches, which have shown superior results. In this paper, we propose a novel approach that combines SL and RL techniques over the MiniWoB benchmark to leverage the strengths of both methods. We also address a critical limitation in previous models' understanding of HTML content, revealing a tendency to memorize target elements rather than comprehend the underlying structure. To rectify this, we propose methods to enhance true understanding and present a new baseline of results. Our experiments demonstrate that our approach outperforms previous SL methods on certain tasks using less data and narrows the performance gap with RL models, achieving 43.58\% average accuracy in SL and 36.69\% when combined with a multimodal RL approach. This study sets a new direction for future web navigation and offers insights into the limitations and potential of language modeling for computer tasks.
翻訳日:2024-05-02 15:37:50 公開日:2024-05-01
# CookingSense: 多分野の知識ベース

CookingSense: A Culinary Knowledgebase with Multidisciplinary Assertions ( http://arxiv.org/abs/2405.00523v1 )

ライセンス: Link先を確認
Donghee Choi, Mogan Gim, Donghyeon Park, Mujeen Sung, Hyunjae Kim, Jaewoo Kang, Jihun Choi, (参考訳) 本稿では,Webデータや科学論文,レシピなど,さまざまなソースから抽出された料理領域における知識主張の記述的コレクションであるCookingSenseについて紹介する。 CookingSenseは、辞書ベースのフィルタリングと言語モデルに基づくセマンティックフィルタリング技術によって構築されている。 また,料理意思決定支援システム評価のための新しいベンチマークであるFoodBenchを提案する。 FoodBenchによる評価から,CookingSenseが検索言語モデルの性能を向上させることを実証的に証明した。 また,定性的分析により,CookingSenseの品質とアサーションの多様性を検証した。

This paper introduces CookingSense, a descriptive collection of knowledge assertions in the culinary domain extracted from various sources, including web data, scientific papers, and recipes, from which knowledge covering a broad range of aspects is acquired. CookingSense is constructed through a series of dictionary-based filtering and language model-based semantic filtering techniques, which results in a rich knowledgebase of multidisciplinary food-related assertions. Additionally, we present FoodBench, a novel benchmark to evaluate culinary decision support systems. From evaluations with FoodBench, we empirically prove that CookingSense improves the performance of retrieval augmented language models. We also validate the quality and variety of assertions in CookingSense through qualitative analysis.
翻訳日:2024-05-02 15:37:50 公開日:2024-05-01
# FMLFS:IoT環境における情報理論に基づく連合型マルチラベル特徴選択

FMLFS: A federated multi-label feature selection based on information theory in IoT environment ( http://arxiv.org/abs/2405.00524v1 )

ライセンス: Link先を確認
Afsaneh Mahanipour, Hana Khamfroush, (参考訳) ヘルス監視ウェアラブルやトラフィック監視システムなどの新興アプリケーションでは、IoT(Internet-of-Things)デバイスが大量のマルチラベルデータセットを生成し、収集する。 これらのデータセットの中で、各インスタンスはラベルのセットにリンクされる。 これらのデータセットにおけるノイズ、冗長、あるいは無関係な特徴の存在は、次元性の呪いとともに、マルチラベル分類器の課題を提起する。 特徴選択(FS)は、分類器の性能を高め、これらの課題に対処するための効果的な戦略であることが証明されている。 しかし、現時点では、IoT環境内の分散マルチラベルデータセットに適した文献に記録されている、既存の分散マルチラベルFSメソッドは存在しない。 本稿では,最初のフェデレーション付きマルチラベル特徴選択法であるFMLFSを紹介する。 ここでは、特徴とラベルの相互情報が関連度指標として機能し、相互情報と共同エントロピーから導かれる特徴間の相関距離が冗長度尺度として利用される。 エッジサーバ上のこれらのメトリクスの集約と、Paretoベースの双方向および集団距離戦略の採用に続いて、ソートされた機能は、その後IoTデバイスに送信される。 提案手法は2つのシナリオで評価される。 1)縮小サイズデータセットをエッジサーバに送信し、集中型分類器の使用、及び 2) 規模を縮小したデータセットを用いたフェデレーション学習。 パフォーマンス、時間的複雑さ、通信コストの3つの指標による評価は、FMLFSが文学における他の5つの同等のメソッドより優れており、3つの実世界のデータセットに対して良好なトレードオフを提供することを示している。

In certain emerging applications such as health monitoring wearable and traffic monitoring systems, Internet-of-Things (IoT) devices generate or collect a huge amount of multi-label datasets. Within these datasets, each instance is linked to a set of labels. The presence of noisy, redundant, or irrelevant features in these datasets, along with the curse of dimensionality, poses challenges for multi-label classifiers. Feature selection (FS) proves to be an effective strategy in enhancing classifier performance and addressing these challenges. Yet, there is currently no existing distributed multi-label FS method documented in the literature that is suitable for distributed multi-label datasets within IoT environments. This paper introduces FMLFS, the first federated multi-label feature selection method. Here, mutual information between features and labels serves as the relevancy metric, while the correlation distance between features, derived from mutual information and joint entropy, is utilized as the redundancy measure. Following aggregation of these metrics on the edge server and employing Pareto-based bi-objective and crowding distance strategies, the sorted features are subsequently sent back to the IoT devices. The proposed method is evaluated through two scenarios: 1) transmitting reduced-size datasets to the edge server for centralized classifier usage, and 2) employing federated learning with reduced-size datasets. Evaluation across three metrics - performance, time complexity, and communication cost - demonstrates that FMLFS outperforms five other comparable methods in the literature and provides a good trade-off on three real-world datasets.
翻訳日:2024-05-02 15:37:50 公開日:2024-05-01
# JNIグローバル参照は依然として脆弱-攻撃と防衛

JNI Global References Are Still Vulnerable: Attacks and Defenses ( http://arxiv.org/abs/2405.00526v1 )

ライセンス: Link先を確認
Yi He, Yuan Zhou, Yacong Gu, Purui Su, Qi Li, Yajin Zhou, Yong Jiang, (参考訳) Androidのシステムサービスとリソースは、IPCベースのメカニズムを通じてアクセスされる。 これまでの研究では、DoS攻撃(DoS攻撃)に弱いことが示されている。 例えば、システムサービスで広く使われているJNIグローバルリファレンス(JGR)は、システム再起動を引き起こすために消耗することができる(JGRE攻撃という名前で呼ばれる)。 Androidチームはセキュリティチェックを強制してこの問題を修正しようとしているが、最新のAndroidシステムでJGRの枯渇したDoS攻撃を構築することは可能だ。 本稿では,最新のAndroidバージョン(つまりAndroid 10)を含む,さまざまなAndroidバージョンで有効な新しいJGRエクスカレーションDoS攻撃を提案する。 具体的には、コールグラフ解析とフォワードリーチビリティ解析により、JGRの脆弱なサービスAPIを体系的に検出できるツールであるJGREAnalyzerを開発した。 このツールをさまざまなAndroidバージョンに適用し、複数の脆弱性を発見しました。 特に、Android 10の148のシステムサービスのうち、12には21の脆弱性がある。 そのうち9つは、許可なくうまく利用することができる。 さらに,脆弱性の根本原因を解析し,グローバル参照カウントによる資源消費の抑制により,JGRE攻撃を緩和する新たな防御策を提案する。

System services and resources in Android are accessed through IPC based mechanisms. Previous research has demonstrated that they are vulnerable to the denial-of-service attack (DoS attack). For instance, the JNI global reference (JGR), which is widely used by system services, can be exhausted to cause the system reboot (hence the name JGRE attack). Even though the Android team tries to fix the problem by enforcing security checks, we find that it is still possible to construct a JGR exhaustion DoS attack in the latest Android system. In this paper, we propose a new JGR exhaustion DoS attack, which is effective in different Android versions, including the latest one (i.e., Android 10). Specifically, we developed JGREAnalyzer, a tool that can systematically detect JGR vulnerable services APIs via a call graph analysis and a forwarding reachability analysis. We applied this tool to different Android versions and found multiple vulnerabilities. In particular, among 148 system services in Android 10, 12 of them have 21 vulnerabilities. Among them, 9 can be successfully exploited without any permissions. We further analyze the root cause of the vulnerabilities and propose a new defense to mitigate the JGRE attack by restricting resource consumption via global reference counting.
翻訳日:2024-05-02 15:27:48 公開日:2024-05-01
# レジリエントRPKIのためのビザンチン安保派

Byzantine-Secure Relying Party for Resilient RPKI ( http://arxiv.org/abs/2405.00531v1 )

ライセンス: Link先を確認
Jens Friess, Donika Mirdita, Haya Schulmann, Michael Waidner, (参考訳) プレフィックスのハイジャックから保護するために、Resource Public Key Infrastructure (RPKI)が標準化されている。 RPKIバリデーションのセキュリティ保証を享受するために、ネットワークはRPKIオブジェクトをフェッチして検証し、それらをバウンダリルータに提供する、新しいコンポーネントであるDepending Party Validatorをインストールする必要がある。 しかし、最近の研究は、RPKIオブジェクトの取得時に当事者が障害を経験し、攻撃に対して脆弱であることを示しており、これらすべてがRPKI検証を無効にすることができる。 したがって、少数の養子でさえ必ずしも安全ではない。 RPKIのレジリエンスとセキュリティを大幅に改善する最初の提案を行う。 我々は、ビザンチン・セキュアなサードパーティ実装であるBRPを開発する。 BRPでは、依存するノードはRPKIオブジェクトを冗長に検証し、投票を通じてグローバルなコンセンサスに達する。 BRPはパブリックDNSに相当するRPKIを提供し、BRPノードのオペレータを信頼することなく、ネットワークをインストール、運用、アップグレードする必要がない。 我々は,RPKIリポジトリの障害,ジッタ,アタックにもかかわらず,BRPがRPKIのパブリッシュポイントの負荷を低減し,ロバストなアウトプットを実現するというシミュレーションと実験を通して示す。 BRPは完全な後方互換性を持ち、容易にデプロイできるように設計しています。 BRPが多くのネットワークを透過的に保護できることを示す。 BRP は NTP や TOR と同様に、分散されたボランティアデプロイメントのネットワークとして設定することができ、それぞれのオペレータがノードとのピアリングプロセスに参加し、インターネットへのレジリエントでセキュアなサードパーティの検証を提供する。 BRPは単一のオペレータによって、ひとつのクラウドやCDN上の集中型サービスとしてホストすることもでき、単一のネットワーク上でホストされた場合でも、RPKIバリデーションのメリットを提供する。

To protect against prefix hijacks, Resource Public Key Infrastructure (RPKI) has been standardized. To enjoy the security guarantees of RPKI validation, networks need to install a new component, the relying party validator, which fetches and validates RPKI objects and provides them to border routers. However, recent work shows that relying parties experience failures when retrieving RPKI objects and are vulnerable to attacks, all of which can disable RPKI validation. Therefore even the few adopters are not necessarily secure. We make the first proposal that significantly improves the resilience and security of RPKI. We develop BRP, a Byzantine-Secure relying party implementation. In BRP the relying party nodes redundantly validate RPKI objects and reach a global consensus through voting. BRP provides an RPKI equivalent of public DNS, removing the need for networks to install, operate, and upgrade their own relying party instances while avoiding the need to trust operators of BRP nodes. We show through simulations and experiments that BRP, as an intermediate RPKI service, results in less load on RPKI publication points and a robust output despite RPKI repository failures, jitter, and attacks. We engineer BRP to be fully backward compatible and readily deployable - it does not require any changes to the border routers and the RPKI repositories. We demonstrate that BRP can protect many networks transparently, with either a decentralized or centralized deployment. BRP can be set up as a network of decentralized volunteer deployments, similarly to NTP and TOR, where different operators participate in the peering process with their node, and provide resilient and secure relying party validation to the Internet. BRP can also be hosted by a single operator as a centralized service, e.g., on one cloud or CDN, and provides RPKI validation benefits even when hosted on a single network.
翻訳日:2024-05-02 15:27:48 公開日:2024-05-01
# ULLER: 学習と推論のための統一言語

ULLER: A Unified Language for Learning and Reasoning ( http://arxiv.org/abs/2405.00532v1 )

ライセンス: Link先を確認
Emile van Krieken, Samy Badreddine, Robin Manhaeve, Eleonora Giunchiglia, (参考訳) 学習と推論を組み合わせたニューロシンボリック人工知能(NeSy)の分野は、最近大きな成長を遂げている。 現在、さまざまなNeSyフレームワークがあり、それぞれがバックグラウンド知識を表現するための独自の言語を持ち、それをニューラルネットワークに関連付ける方法がある。 この異種性は新参者へのアクセシビリティを妨げ、異なるNeSyフレームワークの比較を困難にしている。 我々はNeSyのための統一言語を提案し、それをULLER(Unified Language for LEarning and Reasoning)と呼ぶ。 ULLERは様々な設定を包含し、その知識が既存のNeSyシステムで利用できることを保証している。 ULLERは、古典論理、ファジィ論理、確率論理などの例を提示する、ニューロシンボリックな一階述語構文を持つ。 ULLERはNeSyリサーチをよりアクセシビリティと同等にするための第一歩であり、さまざまなセマンティクス、ナレッジベース、NeSyシステムにわたるトレーニングと評価を合理化するライブラリの道を開くものだと考えています。

The field of neuro-symbolic artificial intelligence (NeSy), which combines learning and reasoning, has recently experienced significant growth. There now are a wide variety of NeSy frameworks, each with its own specific language for expressing background knowledge and how to relate it to neural networks. This heterogeneity hinders accessibility for newcomers and makes comparing different NeSy frameworks challenging. We propose a unified language for NeSy, which we call ULLER, a Unified Language for LEarning and Reasoning. ULLER encompasses a wide variety of settings, while ensuring that knowledge described in it can be used in existing NeSy systems. ULLER has a neuro-symbolic first-order syntax for which we provide example semantics including classical, fuzzy, and probabilistic logics. We believe ULLER is a first step towards making NeSy research more accessible and comparable, paving the way for libraries that streamline training and evaluation across a multitude of semantics, knowledge bases, and NeSy systems.
翻訳日:2024-05-02 15:27:48 公開日:2024-05-01
# ポルトガルにおける自然言語処理モデルトレーニングのための法的枠組み

A Legal Framework for Natural Language Processing Model Training in Portugal ( http://arxiv.org/abs/2405.00536v1 )

ライセンス: Link先を確認
Rúben Almeida, Evelin Amorim, (参考訳) 近年のディープラーニングの進歩は、人間の知性に制限された知的行動を実行することのできる多くの計算システムの出現を促進している。 人間の言語の場合、これらの進歩により、明示的にプログラムされることなくコヒーレントなテキストを生成することができるChatGPTのようなアプリケーションの導入が可能になった。 代わりに、これらのモデルは、人間の言語の意味のある表現を学ぶために大量のテキストデータを使用する。 これらの進歩に関連して、これらのアプリケーションによって引き起こされる著作権やデータのプライバシー侵害に関する懸念が浮上している。 これらの懸念にもかかわらず、新しい自然言語処理アプリケーションの開発が続けられるペースは、新しい規則の導入よりも大きく向上した。 今日では、法律の専門家とコンピュータ科学者の間のコミュニケーション障壁は、そのようなアプリケーションの開発において意図しない法的侵害の多くを動機付けている。 本稿では、このコミュニケーションギャップを埋め、日々のNLP使用事例を提示し、ポルトガルのNLP研究をより順応させることを目的としている。

Recent advances in deep learning have promoted the advent of many computational systems capable of performing intelligent actions that, until then, were restricted to the human intellect. In the particular case of human languages, these advances allowed the introduction of applications like ChatGPT that are capable of generating coherent text without being explicitly programmed to do so. Instead, these models use large volumes of textual data to learn meaningful representations of human languages. Associated with these advances, concerns about copyright and data privacy infringements caused by these applications have emerged. Despite these concerns, the pace at which new natural language processing applications continued to be developed largely outperformed the introduction of new regulations. Today, communication barriers between legal experts and computer scientists motivate many unintentional legal infringements during the development of such applications. In this paper, a multidisciplinary team intends to bridge this communication gap and promote more compliant Portuguese NLP research by presenting a series of everyday NLP use cases, while highlighting the Portuguese legislation that may arise during its development.
翻訳日:2024-05-02 15:27:48 公開日:2024-05-01
# 熱・健康・ハビタット : オーストリア地方における気候・人口変動の断続的リスクの分析

Heat, Health, and Habitats: Analyzing the Intersecting Risks of Climate and Demographic Shifts in Austrian Districts ( http://arxiv.org/abs/2405.00540v1 )

ライセンス: Link先を確認
Hannah Schuster, Axel Polleres, Amin Anjomshoaa, Johannes Wachs, (参考訳) 暑さが人口の健康に与える影響は、年齢や地域の緑のインフラなど、様々な要因によって左右される。 気候変動による温暖化と人口の高齢化が組み合わさって、今後数十年で熱関連の健康影響が悪化する可能性が示唆されている。 ここでは、2015-2022ドルのパネルデータセットを用いて、オーストリア地方における週ごとの死亡率と熱日との関係を計測する。 さらに30ドルに達する日は、夏の人口が1,000ドル当たり2.4セントの死亡率の増加と関連している。 この協会は、人口の平均的なシェアより2つの標準偏差が65ドルを超える地区でおよそ2倍になっている。 暑い日(RCP)と人口統計を2050ドル(約2万5000円)で予測すると、地区の人口と暑い日は25ドル(約2万5000円)という現在の平均よりも2~5ドル(約2万5000円)高い。 これは、熱関連の死亡率の劇的な増加を予測している。 同時に、住宅地の10立方メートルの衛星画像を用いて測定された地域グリーンスコアは、熱と死亡との関係を著しく緩やかにしている。 したがって、地域政策は温暖化や人口統計の傾向を逆転させることはできないだろうが、オーストリアでも、これらの成長するリスクの健康影響を仲介する措置を取ることができる。

The impact of hot weather on health outcomes of a population is mediated by a variety of factors, including its age profile and local green infrastructure. The combination of warming due to climate change and demographic aging suggests that heat-related health outcomes will deteriorate in the coming decades. Here, we measure the relationship between weekly all-cause mortality and heat days in Austrian districts using a panel dataset covering $2015-2022$. An additional day reaching $30$ degrees is associated with a $2.4\%$ increase in mortality per $1000$ inhabitants during summer. This association is roughly doubled in districts with a two standard deviation above average share of the population over $65$. Using forecasts of hot days (RCP) and demographics in $2050$, we observe that districts will have elderly populations and hot days $2-5$ standard deviations above the current mean in just $25$ years. This predicts a drastic increase in heat-related mortality. At the same time, district green scores, measured using $10\times 10$ meter resolution satellite images of residential areas, significantly moderate the relationship between heat and mortality. Thus, although local policies likely cannot reverse warming or demographic trends, they can take measures to mediate the health consequences of these growing risks, which are highly heterogeneous across regions, even in Austria.
翻訳日:2024-05-02 15:27:48 公開日:2024-05-01
# UWAFA-GAN: マルチスケールジェネレーションとレジストレーションによる超広角フルオレセイン血管造影変換

UWAFA-GAN: Ultra-Wide-Angle Fluorescein Angiography Transformation via Multi-scale Generation and Registration Enhancement ( http://arxiv.org/abs/2405.00542v1 )

ライセンス: Link先を確認
Ruiquan Ge, Zhaojie Fang, Pengxue Wei, Zhanghao Chen, Hongyang Jiang, Ahmed Elazab, Wangting Li, Xiang Wan, Shaochong Zhang, Changmiao Wang, (参考訳) 超広角眼底撮影(UWF)技術と組み合わせた眼底撮影は、網膜をより包括的に観察することで、臨床環境では欠かせない診断ツールとなる。 UWF fluorescein angiography (UWF-FA) はUWFスキャニングレーザー眼科検査(UWF-SLO)とは異なり、患者の手や肘に注入して蛍光染料を投与する必要がある。 注射による潜在的な副作用を軽減するため,UWF-SLO画像をUWF-FAに変換できるクロスモダリティ医療画像生成アルゴリズムの開発が提案されている。 現在の画像生成技術は、高解像度網膜画像、特に微小血管病変の撮影において、眼底撮影の困難さに対処している。 これらの課題に対処するために,UWF-SLOからUWF-FAを合成する条件付き生成対向ネットワーク(UWAFA-GAN)を導入する。 このアプローチでは、グローバル構造と局所病変の両方を効率的に抽出するために、マルチスケールジェネレータとアテンション送信モジュールを用いる。 さらに、不整合データのトレーニングから発生する画像ぼかし問題に対処するため、このフレームワークには登録モジュールが組み込まれている。 本手法はインセプションスコアと詳細生成を非自明に行う。 さらに,UWAFA-GANが生成するUWF-FA画像は,診断信頼性の観点から,臨床に比較して精度の高い画像であることが示唆された。 UWAFA-GANが既存の手法より優れていることを示すために、当社独自のUWF画像データセットの実証評価を行った。 コードはhttps://github.com/Tinysqua/UWAFA-GANでアクセスできる。

Fundus photography, in combination with the ultra-wide-angle fundus (UWF) techniques, becomes an indispensable diagnostic tool in clinical settings by offering a more comprehensive view of the retina. Nonetheless, UWF fluorescein angiography (UWF-FA) necessitates the administration of a fluorescent dye via injection into the patient's hand or elbow unlike UWF scanning laser ophthalmoscopy (UWF-SLO). To mitigate potential adverse effects associated with injections, researchers have proposed the development of cross-modality medical image generation algorithms capable of converting UWF-SLO images into their UWF-FA counterparts. Current image generation techniques applied to fundus photography encounter difficulties in producing high-resolution retinal images, particularly in capturing minute vascular lesions. To address these issues, we introduce a novel conditional generative adversarial network (UWAFA-GAN) to synthesize UWF-FA from UWF-SLO. This approach employs multi-scale generators and an attention transmit module to efficiently extract both global structures and local lesions. Additionally, to counteract the image blurriness issue that arises from training with misaligned data, a registration module is integrated within this framework. Our method performs non-trivially on inception scores and details generation. Clinical user studies further indicate that the UWF-FA images generated by UWAFA-GAN are clinically comparable to authentic images in terms of diagnostic reliability. Empirical evaluations on our proprietary UWF image datasets elucidate that UWAFA-GAN outperforms extant methodologies. The code is accessible at https://github.com/Tinysqua/UWAFA-GAN.
翻訳日:2024-05-02 15:27:48 公開日:2024-05-01
# ベトナムのマルチモーダル・アスペクト・カテゴリ・センタリー分析のためのベンチマークデータセットと細粒度クロスモーダル・フュージョン・フレームワーク

New Benchmark Dataset and Fine-Grained Cross-Modal Fusion Framework for Vietnamese Multimodal Aspect-Category Sentiment Analysis ( http://arxiv.org/abs/2405.00543v1 )

ライセンス: Link先を確認
Quy Hoang Nguyen, Minh-Van Truong Nguyen, Kiet Van Nguyen, (参考訳) ソーシャルメディアプラットフォーム上でのマルチモーダルデータの出現は、特定の側面に対するユーザの感情をよりよく理解する新たな機会を提供する。 しかしながら、Aspect-Category Sentiment Analysis (ACSA) のための既存のマルチモーダルデータセットは、しばしば画像のきめ細かい情報を無視してテキストアノテーションに焦点を当てる。 その結果、これらのデータセットはマルチモーダルに固有の豊かさを完全に活用することができない。 この問題を解決するために,ベトナムのVMACSAという,14,618の細かいアノテーションと4,876のテキストイメージペアからなる,ベトナムのマルチモーダルデータセットを導入した。 さらに,ファイン・グラインド・クロス・モーダル・フュージョン・フレームワーク (FCMF) を提案する。 実験の結果,本フレームワークはViMACSAデータセット上でのSOTAモデルよりも優れており,F1スコアは79.73%であった。 また,ベトナム語のミススペルや略語,複雑度など,ベトナムのマルチモーダル感情分析の特徴と課題についても検討する。 この研究は、ベンチマークデータセットと、微細なマルチモーダル情報を利用して、マルチモーダルなアスペクト・カテゴリの感情分析を改善する新しいフレームワークの両方に貢献する。 私たちのデータセットは、研究目的で利用可能です。

The emergence of multimodal data on social media platforms presents new opportunities to better understand user sentiments toward a given aspect. However, existing multimodal datasets for Aspect-Category Sentiment Analysis (ACSA) often focus on textual annotations, neglecting fine-grained information in images. Consequently, these datasets fail to fully exploit the richness inherent in multimodal. To address this, we introduce a new Vietnamese multimodal dataset, named ViMACSA, which consists of 4,876 text-image pairs with 14,618 fine-grained annotations for both text and image in the hotel domain. Additionally, we propose a Fine-Grained Cross-Modal Fusion Framework (FCMF) that effectively learns both intra- and inter-modality interactions and then fuses these information to produce a unified multimodal representation. Experimental results show that our framework outperforms SOTA models on the ViMACSA dataset, achieving the highest F1 score of 79.73%. We also explore characteristics and challenges in Vietnamese multimodal sentiment analysis, including misspellings, abbreviations, and the complexities of the Vietnamese language. This work contributes both a benchmark dataset and a new framework that leverages fine-grained multimodal information to improve multimodal aspect-category sentiment analysis. Our dataset is available for research purposes: https://github.com/hoangquy18/Multimodal-Aspect-Category-Sentiment-Analysis.
翻訳日:2024-05-02 15:27:48 公開日:2024-05-01
# 画像分類のためのディジタルアナログ量子畳み込みニューラルネットワーク

Digital-analog quantum convolutional neural networks for image classification ( http://arxiv.org/abs/2405.00548v1 )

ライセンス: Link先を確認
Anton Simen, Carlos Flores-Garrigos, Narendra N. Hegade, Iraitz Montalban, Yolanda Vives-Gilabert, Eric Michon, Qi Zhang, Enrique Solano, José D. Martín-Guerrero, (参考訳) 本稿では,画像の分類における複雑な特徴の検出を向上させるために,ディジタルアナログ量子カーネルを提案する。 我々は、中性原子量子プロセッサにおけるネイティブIsing相互作用から派生した多部結合型アナログブロックと、プロトコルを実装するためのデジタルステップとしての個々の操作を考察する。 複雑な特徴の検出をさらに改善するため、ハードウェアの制約に応じて量子ビット接続を可変させることにより、複数の量子カーネルを適用する。 非トレーニング可能な量子カーネルと標準的な畳み込みニューラルネットワークを組み合わせたアーキテクチャは、乳がんや肺炎の病気など、現実的な医療画像の分類に使われ、パラメータの数は大幅に削減されている。 この事実にもかかわらず、このモデルは従来のモデルよりも優れたパフォーマンスを示し、公開ベンチマークによると同等のメトリクスを達成している。 これらの知見は、量子アドバンテージ体制に近づいた画像認識において、デジタルアナログ符号化が古典的モデルを上回る方法であることを示す。

We propose digital-analog quantum kernels for enhancing the detection of complex features in the classification of images. We consider multipartite-entangled analog blocks, stemming from native Ising interactions in neutral-atom quantum processors, and individual operations as digital steps to implement the protocol. To further improving the detection of complex features, we apply multiple quantum kernels by varying the qubit connectivity according to the hardware constraints. An architecture that combines non-trainable quantum kernels and standard convolutional neural networks is used to classify realistic medical images, from breast cancer and pneumonia diseases, with a significantly reduced number of parameters. Despite this fact, the model exhibits better performance than its classical counterparts and achieves comparable metrics according to public benchmarks. These findings demonstrate the relevance of digital-analog encoding, paving the way for surpassing classical models in image recognition approaching us to quantum-advantage regimes.
翻訳日:2024-05-02 15:27:48 公開日:2024-05-01
# 回帰の導出に基づく正規化

Derivative-based regularization for regression ( http://arxiv.org/abs/2405.00555v1 )

ライセンス: Link先を確認
Enrico Lopedoto, Maksim Shekhunov, Vitaly Aksenov, Kizito Salako, Tillman Weyde, (参考訳) 本研究では,多変数回帰問題における正規化に対する新しいアプローチを提案する。 我々の正規化器はDLossと呼ばれ、トレーニングデータから推定したモデル導関数とデータ生成関数の導関数の違いを解析する。 これらの推定導関数をデータ導関数と呼ぶ。 本手法の目的は、対象値だけでなく、関連するデリバティブの観点からも、モデルとデータとの整合性を確保することである。 データデリバティブを推定するために、最も近い隣人またはランダムな選択を用いて、入力値対の2-タプルを(トレーニングデータから)選択する。 合成および実データを用いて、標準2乗誤差損失に異なる重みを持つDLossを追加する効果を評価する。 実験の結果、DLoss(近傍選択法)では、正則化やL2正則化、Dropoutに比べて平均して、検証データセット上でのMSEに対する最高のランクが得られることがわかった。

In this work, we introduce a novel approach to regularization in multivariable regression problems. Our regularizer, called DLoss, penalises differences between the model's derivatives and derivatives of the data generating function as estimated from the training data. We call these estimated derivatives data derivatives. The goal of our method is to align the model to the data, not only in terms of target values but also in terms of the derivatives involved. To estimate data derivatives, we select (from the training data) 2-tuples of input-value pairs, using either nearest neighbour or random, selection. On synthetic and real datasets, we evaluate the effectiveness of adding DLoss, with different weights, to the standard mean squared error loss. The experimental results show that with DLoss (using nearest neighbour selection) we obtain, on average, the best rank with respect to MSE on validation data sets, compared to no regularization, L2 regularization, and Dropout.
翻訳日:2024-05-02 15:27:48 公開日:2024-05-01
# Swarm Learning: 概念,応用,トレンドに関する調査

Swarm Learning: A Survey of Concepts, Applications, and Trends ( http://arxiv.org/abs/2405.00556v1 )

ライセンス: Link先を確認
Elham Shammar, Xiaohui Cui, Mohammed A. A. Al-qaness, (参考訳) ディープラーニングモデルは、中央サーバー上の大規模なデータセットに依存するため、プライバシとセキュリティ上の懸念を提起している。 IoT(Internet of Things)デバイスの数が増えるにつれ、人工知能(AI)はリソース管理、データ処理、知識獲得に不可欠になる。 これらの問題に対処するため、フェデレーション・ラーニング(FL)は、分散的でハードウェアに依存しない方法で機能する汎用的で大規模な機械学習フレームワークを構築するための新しいアプローチを導入した。 しかし、FLはネットワーク帯域幅の制限とデータ漏洩に直面している。 FLの中央依存を減らしスケーラビリティを向上させるため、Hewlett Packard Enterprise(HPE)と共同でSwarm Learning(SL)が提案されている。 SLは、セキュアでスケーラブルでプライベートなデータ管理にブロックチェーン技術を活用する、分散機械学習フレームワークである。 ブロックチェーンベースのネットワークは、参加者間のモデルパラメータの交換と集約を可能にし、単一障害点のリスクを軽減し、通信ボトルネックを取り除く。 私たちの知る限りでは、この調査はSwarm Learningの原則、アーキテクチャ設計、その応用分野を紹介する最初のものです。 さらに、SLの全可能性と応用を解放するために、学術および産業コミュニティによるさらなる調査を必要とする多くの研究方法を強調している。

Deep learning models have raised privacy and security concerns due to their reliance on large datasets on central servers. As the number of Internet of Things (IoT) devices increases, artificial intelligence (AI) will be crucial for resource management, data processing, and knowledge acquisition. To address those issues, federated learning (FL) has introduced a novel approach to building a versatile, large-scale machine learning framework that operates in a decentralized and hardware-agnostic manner. However, FL faces network bandwidth limitations and data breaches. To reduce the central dependency in FL and increase scalability, swarm learning (SL) has been proposed in collaboration with Hewlett Packard Enterprise (HPE). SL represents a decentralized machine learning framework that leverages blockchain technology for secure, scalable, and private data management. A blockchain-based network enables the exchange and aggregation of model parameters among participants, thus mitigating the risk of a single point of failure and eliminating communication bottlenecks. To the best of our knowledge, this survey is the first to introduce the principles of Swarm Learning, its architectural design, and its fields of application. In addition, it highlights numerous research avenues that require further exploration by academic and industry communities to unlock the full potential and applications of SL.
翻訳日:2024-05-02 15:27:48 公開日:2024-05-01
# 不適切な専門家(MoTE)の混在 : 自己アライメントにおける思考の連鎖とエキスパート混在の相乗効果

Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment ( http://arxiv.org/abs/2405.00557v1 )

ライセンス: Link先を確認
Zhili Liu, Yunhao Gou, Kai Chen, Lanqing Hong, Jiahui Gao, Fei Mi, Yu Zhang, Zhenguo Li, Xin Jiang, Qun Liu, James T. Kwok, (参考訳) 大きな言語モデル(LLM)の能力が劇的に拡大し、これらのモデルを人間の価値と整合させることは、デプロイメント中に潜在的なリスクを生じさせる重要な課題である。 従来のアライメント戦略は人間の介入に大きく依存しており、例えばスーパーバイザード・ファイン・チューニング(SFT)や人間からのフィードバックからの強化学習(RLHF)、あるいはLLMの自己調整能力に大きく依存している。 これらの課題に対処するため,AlignCoT と呼ばれる Chain of Thought (CoT) アプローチを利用した新たな自己アライメント手法を提案する。 本手法は,質問分析,回答指導,安全回答作成の段階を含む。 LLMは、開発の各段階で高品質で安全な応答を生成するように設計されている。 さらに,AlignCoTプロセスの各コンポーネントの強化に専門家の混在を適用し,アライメント効率を著しく向上させるMixture of InsighTful Experts (MoTE)アーキテクチャを導入する。 MoTEアプローチは、LLMを人間の価値と整合させる既存の手法よりも優れているだけでなく、自己生成データを使用することの利点を強調し、アライメントの改善とトレーニング効率の2つの利点を明らかにしている。

As the capabilities of large language models (LLMs) have expanded dramatically, aligning these models with human values presents a significant challenge, posing potential risks during deployment. Traditional alignment strategies rely heavily on human intervention, such as Supervised Fine-Tuning (SFT) and Reinforcement Learning from Human Feedback (RLHF), or on the self-alignment capacities of LLMs, which usually require a strong LLM's emergent ability to improve its original bad answer. To address these challenges, we propose a novel self-alignment method that utilizes a Chain of Thought (CoT) approach, termed AlignCoT. This method encompasses stages of Question Analysis, Answer Guidance, and Safe Answer production. It is designed to enable LLMs to generate high-quality, safe responses throughout various stages of their development. Furthermore, we introduce the Mixture of insighTful Experts (MoTE) architecture, which applies the mixture of experts to enhance each component of the AlignCoT process, markedly increasing alignment efficiency. The MoTE approach not only outperforms existing methods in aligning LLMs with human values but also highlights the benefits of using self-generated data, revealing the dual benefits of improved alignment and training efficiency.
翻訳日:2024-05-02 15:27:48 公開日:2024-05-01
# 一般化等角的タイトフレームからの情報過完全測定

Informationally overcomplete measurements from generalized equiangular tight frames ( http://arxiv.org/abs/2405.00560v1 )

ライセンス: Link先を確認
Katarzyna Siudzińska, (参考訳) 情報の過剰な測定は、量子トモグラフィーと量子状態推定に重要な応用を見出す。 最も一般的なのは相互に偏りのない基底の最大集合であり、測定作用素間のトレース関係はよく知られている。 本稿では、任意のランクの等角的タイトフレームによって生成される情報的にオーバーコンプリートなPOVMのより一般的なクラスを紹介する。 このクラスは、互いに偏りのない測度と基底の再スケールを含む非射影POVMへの等角測度を一般化する。 本稿では, それらの構成法, 対称性特性の解析, 高対称性の場合の例について述べる。 特に、円錐型2-設計である一般化された等角測定の幅広いクラスを見つけ、偶然の指数を導出することができる。 以上の結果から,POVM の情報完全コレクションに対して,情報の過剰な測定を単一で行うことのメリットが示唆された。

Informationally overcomplete measurements find important applications in quantum tomography and quantum state estimation. The most popular are maximal sets of mutually unbiased bases, for which trace relations between measurement operators are well known. In this paper, we introduce a more general class of informationally overcomplete POVMs that are generated by equiangular tight frames of arbitrary rank. This class provides a generalization of equiangular measurements to non-projective POVMs, which include rescaled mutually unbiased measurements and bases. We provide a method of their construction, analyze their symmetry properties, and provide examples for highly symmetric cases. In particular, we find a wide class of generalized equiangular measurements that are conical 2-designs, which allows us to derive the index of coincidence. Our results show benefits of considering a single informationally overcomplete measurement over informationally complete collections of POVMs.
翻訳日:2024-05-02 15:27:48 公開日:2024-05-01
# 障害試験におけるスペクトルに基づく断層定位のためのスタックトレースの活用

Leveraging Stack Traces for Spectrum-based Fault Localization in the Absence of Failing Tests ( http://arxiv.org/abs/2405.00565v1 )

ライセンス: Link先を確認
Lorena Barreto Simedo Pacheco, An Ran Chen, Jinqiu Yang, Tse-Hsun, Chen, (参考訳) バグ修正は、ユーザの信頼を維持するために、ソフトウェアのメンテナンスにおいて重要なタスクである。 様々な自動故障局所化技術が存在するが、有効にするためには特定の条件を必要とすることが多い。 例えば、スペクトラムベースのフォールトローカライゼーション(SBFL)技術では、バグを特定するために少なくとも1つのフェールテストが必要です。 バグレポート、特にスタックトレースを持つものは、システム実行障害に関する詳細な情報を提供しており、開発者にとっては重要ではない。 本研究は,SBFLの耐故障試験として,事故報告からのスタックトレースを活用することに焦点を当てた。 以上の結果から,従来のSBFLの効率を損なう原因は3.33%に過ぎなかった。 しかし、98.3%のバグ修正意図はスタックトレースの例外と直接一致しており、78.3%のバグ修正手法は平均0.34のメソッドコールで到達可能であり、バグを見つけるための信頼できる情報源としてスタックトレースを証明している。 我々は,スタックトレースデータをテストカバレッジと統合し,障害局所化を強化する新しいアプローチであるSBESTを導入する。 提案手法では,平均精度(MAP)が32.22%向上し,平均相互ランク(MRR)が17.43%向上した。

Bug fixing is a crucial task in software maintenance to hold user trust. Although various automated fault localization techniques exist, they often require specific conditions to be effective. For example, Spectrum-Based Fault Localization (SBFL) techniques need at least one failing test to identify bugs, which may not always be available. Bug reports, particularly those with stack traces, provide detailed information on system execution failures and are invaluable for developers. This study focuses on utilizing stack traces from crash reports as fault-triggering tests for SBFL. Our findings indicate that only 3.33% of bugs have fault-triggering tests, limiting traditional SBFL efficiency. However, 98.3% of bugfix intentions align directly with exceptions in stack traces, and 78.3% of buggy methods are reachable within an average of 0.34 method calls, proving stack traces as a reliable source for locating bugs. We introduce a new approach, SBEST, that integrates stack trace data with test coverage to enhance fault localization. Our approach shows a significant improvement, increasing Mean Average Precision (MAP) by 32.22% and Mean Reciprocal Rank (MRR) by 17.43% over traditional stack trace ranking methods.
翻訳日:2024-05-02 15:27:48 公開日:2024-05-01
# Numeric-Sensitive Large Language Model for Chinese Finance - NumLLM

NumLLM: Numeric-Sensitive Large Language Model for Chinese Finance ( http://arxiv.org/abs/2405.00566v1 )

ライセンス: Link先を確認
Huan-Yi Su, Ke Wu, Yu-Hao Huang, Wu-Jun Li, (参考訳) 近年,金融コーパス上でスクラッチや微調整のオープンソース LLM を事前学習することで,様々な金融大規模言語モデル (FinLLM) を提案する研究が増えている。 しかし、既存のFinLLMは、数値変数が問題に関わったときの財務文書の理解に不満足な性能を示す。 本稿では,中国金融のための数値感性大言語モデル(NumLLM)を提案する。 まず、財務教科書から財務コーパスを構築し、微調整中におけるLLMの数値能力向上に不可欠である。 その後、構築した金融コーパスの微調整により、2つの個別低ランク適応(LoRA)モジュールを訓練する。 1つのモジュールは汎用LLMをファイナンシャルドメインに適応するためのもので、もう1つのモジュールはNumLLMの数値変数による財務テキストの理解能力を高めるためのものである。 最後に、2つのLoRAモジュールを基礎モデルにマージし、推論用のNumLLMを得る。 ファイナンシャル質問答えベンチマークの実験では、NumLLMは基礎モデルの性能を向上し、数値と非数値の両方の質問に基づいて、すべてのベースラインと比較して最高の全体的なパフォーマンスを達成することができる。

Recently, many works have proposed various financial large language models (FinLLMs) by pre-training from scratch or fine-tuning open-sourced LLMs on financial corpora. However, existing FinLLMs exhibit unsatisfactory performance in understanding financial text when numeric variables are involved in questions. In this paper, we propose a novel LLM, called numeric-sensitive large language model (NumLLM), for Chinese finance. We first construct a financial corpus from financial textbooks which is essential for improving numeric capability of LLMs during fine-tuning. After that, we train two individual low-rank adaptation (LoRA) modules by fine-tuning on our constructed financial corpus. One module is for adapting general-purpose LLMs to financial domain, and the other module is for enhancing the ability of NumLLM to understand financial text with numeric variables. Lastly, we merge the two LoRA modules into the foundation model to obtain NumLLM for inference. Experiments on financial question-answering benchmark show that NumLLM can boost the performance of the foundation model and can achieve the best overall performance compared to all baselines, on both numeric and non-numeric questions.
翻訳日:2024-05-02 15:27:48 公開日:2024-05-01
# 構造化データ解析のためのデータベース内動的スライシングの活用

Powering In-Database Dynamic Model Slicing for Structured Data Analytics ( http://arxiv.org/abs/2405.00568v1 )

ライセンス: Link先を確認
Lingze Zeng, Naili Xing, Shaofeng Cai, Gang Chen, Beng Chin Ooi, Jian Pei, Yuncheng Wu, (参考訳) リレーショナルデータベース管理システム(RDBMS)は構造化データの保存と検索に広く利用されている。 統計的アグリゲーションを超えて洞察を得るには、通常、従来のデータベース操作を使用してデータベースから特定のサブデータセットを抽出し、それぞれに深層ニューラルネットワーク(DNN)のトレーニングと推論を個別の機械学習システムで適用する必要がある。 このプロセスは、特に異なる分析目的のために抽出されたサブデータセットの組合せ数がある場合、違法にコストがかかる可能性がある。 本稿では,SQLクエリで指定されたサブデータセットのモデルをカスタマイズする新しいSQL対応動的スライシング技術であるLEADSを紹介する。 LEADSは、専門家(MoE)技法の混合による構造化データの予測モデリングを改善し、SQL対応ゲーティングネットワークによる推論効率を維持する。 LEADSのコアとなるのは、データベース全体を通じてトレーニングされたMoEを介して、複数のエキスパートサブモデルを備えた汎用モデルの構築である。 このSQL対応のMoE技術は、推論中にゲーティングネットワークを介して必要な専門家のみを活性化することで、モデリング能力をスケールアップし、効率を向上し、効率を保ちます。 さらに、LEADSのトレーニングプロセス中に2つの正規化用語を導入し、有効性と効率のバランスをとる。 また、LAADSをPostgreSQLに非侵襲的に組み込むことによって、エンドツーエンドの高度な構造化データ分析をサポートする、INDICESと呼ばれるデータベース内推論システムの設計と構築も行います。 実世界のデータセットに関する広範な実験により、LEADSはベースラインモデルより一貫して優れており、INDICESは、従来のソリューションに比べて推論レイテンシを大幅に削減した、効果的なデータベース内分析を提供します。

Relational database management systems (RDBMS) are widely used for the storage and retrieval of structured data. To derive insights beyond statistical aggregation, we typically have to extract specific subdatasets from the database using conventional database operations, and then apply deep neural networks (DNN) training and inference on these respective subdatasets in a separate machine learning system. The process can be prohibitively expensive, especially when there are a combinatorial number of subdatasets extracted for different analytical purposes. This calls for efficient in-database support of advanced analytical methods In this paper, we introduce LEADS, a novel SQL-aware dynamic model slicing technique to customize models for subdatasets specified by SQL queries. LEADS improves the predictive modeling of structured data via the mixture of experts (MoE) technique and maintains inference efficiency by a SQL-aware gating network. At the core of LEADS is the construction of a general model with multiple expert sub-models via MoE trained over the entire database. This SQL-aware MoE technique scales up the modeling capacity, enhances effectiveness, and preserves efficiency by activating only necessary experts via the gating network during inference. Additionally, we introduce two regularization terms during the training process of LEADS to strike a balance between effectiveness and efficiency. We also design and build an in-database inference system, called INDICES, to support end-to-end advanced structured data analytics by non-intrusively incorporating LEADS onto PostgreSQL. Our extensive experiments on real-world datasets demonstrate that LEADS consistently outperforms baseline models, and INDICES delivers effective in-database analytics with a considerable reduction in inference latency compared to traditional solutions.
翻訳日:2024-05-02 15:27:48 公開日:2024-05-01
# WEST GCN-LSTM:地域交通予測のための重み付き時空間グラフニューラルネットワーク

WEST GCN-LSTM: Weighted Stacked Spatio-Temporal Graph Neural Networks for Regional Traffic Forecasting ( http://arxiv.org/abs/2405.00570v1 )

ライセンス: Link先を確認
Theodoros Theodoropoulos, Angelos-Christos Maroudis, Antonios Makris, Konstantinos Tserpes, (参考訳) 地域交通予測は都市移動において重要な課題であり、インターネット・オブ・オール(Internet of Everything)など様々な分野に応用されている。 近年、時空間グラフニューラルネットワークは、多くの交通予測課題の文脈において最先端の結果を得た。 本研究の目的は, 従来の時空間グラフニューラルネットワークアーキテクチャを, より効率的な予測モデルを確立するために, 調査対象地域に関する情報と, それらを横断する人口の包摂を容易にするように拡張することである。 この科学的取り組みの成果は、WEST(Weighted STacked) GCN-LSTMと呼ばれる新しい時空間グラフニューラルネットワークアーキテクチャである。 さらに、上記の情報を含めることは、共有境界政策と調整可能なホップ政策と呼ばれる2つの新しい専用アルゴリズムを使用することによって行われる。 情報融合と蒸留により、提案手法は、19の予測モデルからなる実験的な評価の枠組みにおいて、いくつかのデータセット間で、競争相手を大きく上回っている。 最後に、追加のアブレーション研究により、提案した解のそれぞれの成分が全体的な性能向上に寄与することが決定された。

Regional traffic forecasting is a critical challenge in urban mobility, with applications to various fields such as the Internet of Everything. In recent years, spatio-temporal graph neural networks have achieved state-of-the-art results in the context of numerous traffic forecasting challenges. This work aims at expanding upon the conventional spatio-temporal graph neural network architectures in a manner that may facilitate the inclusion of information regarding the examined regions, as well as the populations that traverse them, in order to establish a more efficient prediction model. The end-product of this scientific endeavour is a novel spatio-temporal graph neural network architecture that is referred to as WEST (WEighted STacked) GCN-LSTM. Furthermore, the inclusion of the aforementioned information is conducted via the use of two novel dedicated algorithms that are referred to as the Shared Borders Policy and the Adjustable Hops Policy. Through information fusion and distillation, the proposed solution manages to significantly outperform its competitors in the frame of an experimental evaluation that consists of 19 forecasting models, across several datasets. Finally, an additional ablation study determined that each of the components of the proposed solution contributes towards enhancing its overall performance.
翻訳日:2024-05-02 15:17:48 公開日:2024-05-01
# ゼロショット合成画像検索のための球面線形補間とテキストアンコリング

Spherical Linear Interpolation and Text-Anchoring for Zero-shot Composed Image Retrieval ( http://arxiv.org/abs/2405.00571v1 )

ライセンス: Link先を確認
Young Kyun Jang, Dat Huynh, Ashish Shah, Wen-Kai Chen, Ser-Nam Lim, (参考訳) Composed Image Retrieval (CIR)は、クエリを使って画像を取得する複雑なタスクである。 監視されたCIRアプローチは、強力なパフォーマンスを示しているが、高価な手動アノテーション付きデータセットへの依存は、スケーラビリティとより広範な適用性を制限している。 これらの問題に対処するため、従来の研究では、画像から単語トークンにマッピングするプロジェクションモジュールを用いた擬ワードトークンベースのZero-Shot CIR(ZS-CIR)手法が提案されている。 投影モジュールは元の画像表現を歪曲し、結果として合成された埋め込みをテキスト側に閉じ込める。 これを解決するために,Slerp(Spherical Linear Interpolation)を用いた新たなZS-CIR手法を提案する。 さらに,テキストエンコーダを固定しながら画像エンコーダを微調整するText-Anchored-Tuning (TAT)を導入する。 TATは画像とテキスト間のモダリティギャップを埋め、Slerpプロセスをより効果的にする。 特に、TAT法はトレーニングデータセットのスケールとトレーニング時間の点で効率が良いだけでなく、教師付きCIRモデルのトレーニングに優れた初期チェックポイントとして機能し、より広い可能性を強調している。 Slerp-based ZS-CIR と TAT-tuned モデルを統合することにより,CIR ベンチマーク間で最先端の検索性能を実現することができる。

Composed Image Retrieval (CIR) is a complex task that retrieves images using a query, which is configured with an image and a caption that describes desired modifications to that image. Supervised CIR approaches have shown strong performance, but their reliance on expensive manually-annotated datasets restricts their scalability and broader applicability. To address these issues, previous studies have proposed pseudo-word token-based Zero-Shot CIR (ZS-CIR) methods, which utilize a projection module to map images to word tokens. However, we conjecture that this approach has a downside: the projection module distorts the original image representation and confines the resulting composed embeddings to the text-side. In order to resolve this, we introduce a novel ZS-CIR method that uses Spherical Linear Interpolation (Slerp) to directly merge image and text representations by identifying an intermediate embedding of both. Furthermore, we introduce Text-Anchored-Tuning (TAT), a method that fine-tunes the image encoder while keeping the text encoder fixed. TAT closes the modality gap between images and text, making the Slerp process much more effective. Notably, the TAT method is not only efficient in terms of the scale of the training dataset and training time, but it also serves as an excellent initial checkpoint for training supervised CIR models, thereby highlighting its wider potential. The integration of the Slerp-based ZS-CIR with a TAT-tuned model enables our approach to deliver state-of-the-art retrieval performance across CIR benchmarks.
翻訳日:2024-05-02 15:17:48 公開日:2024-05-01
# EALD-MLLM:マルチモーダル大言語モデルを用いた時系列・非同一性ビデオの感情分析

EALD-MLLM: Emotion Analysis in Long-sequential and De-identity videos with Multi-modal Large Language Model ( http://arxiv.org/abs/2405.00574v1 )

ライセンス: Link先を確認
Deng Li, Xin Liu, Bohao Xing, Baiqiang Xia, Yuan Zong, Bihan Wen, Heikki Kälviäinen, (参考訳) 感情AIはコンピュータが人間の感情状態を理解する能力である。 既存の作業は有望な進歩を遂げたが、2つの制限は未解決のままである。 1) 従来の研究は、長い連続映像を見下ろしながら、短い連続映像の感情分析に重点を置いてきた。 しかし、短い連続したビデオの感情は、意図的に誘導されたり隠されたりする瞬間的な感情のみを反映する。 対照的に、長いシーケンシャルなビデオは、本物の感情を明らかにします。 2) 従来の研究では, 顔, 音声, さらには敏感な生体信号(心電図, 心電図など)など, 様々な信号が用いられている。 しかし、プライバシーの需要が高まっているため、センシティブな信号に頼ることなくEmotion AIを開発することが重要になっている。 本稿では、上記の制限に対処するため、アスリートのポストマッチインタビューのシーケンスを収集・処理し、EALDと呼ばれる長周期・非同一性ビデオにおける感情分析のためのデータセットを構築した。 各動画の感情状態のアノテーションに加えて、各プレイヤーにNFBLアノテーションも提供する。 NFBLは内向きの感情表現であり、感情状態を理解するためのアイデンティティフリーな手がかりとして機能する。 さらに,さらなる研究のためには,シンプルだが効果的なベースラインを提供する。 より正確には、感情分析を行うために、非識別信号(例えば、視覚、音声、NFBL)を用いてMLLM(Multimodal Large Language Models)を評価する。 我々の実験結果は以下のとおりである。 1)MLLMは、ゼロショットシナリオであっても、教師付きシングルモーダルモデルよりも同等、さらに優れたパフォーマンスを達成することができる。 2)NFBLは長期的感情分析において重要な手がかりである。 EALDはオープンソースプラットフォームで利用可能になる。

Emotion AI is the ability of computers to understand human emotional states. Existing works have achieved promising progress, but two limitations remain to be solved: 1) Previous studies have been more focused on short sequential video emotion analysis while overlooking long sequential video. However, the emotions in short sequential videos only reflect instantaneous emotions, which may be deliberately guided or hidden. In contrast, long sequential videos can reveal authentic emotions; 2) Previous studies commonly utilize various signals such as facial, speech, and even sensitive biological signals (e.g., electrocardiogram). However, due to the increasing demand for privacy, developing Emotion AI without relying on sensitive signals is becoming important. To address the aforementioned limitations, in this paper, we construct a dataset for Emotion Analysis in Long-sequential and De-identity videos called EALD by collecting and processing the sequences of athletes' post-match interviews. In addition to providing annotations of the overall emotional state of each video, we also provide the Non-Facial Body Language (NFBL) annotations for each player. NFBL is an inner-driven emotional expression and can serve as an identity-free clue to understanding the emotional state. Moreover, we provide a simple but effective baseline for further research. More precisely, we evaluate the Multimodal Large Language Models (MLLMs) with de-identification signals (e.g., visual, speech, and NFBLs) to perform emotion analysis. Our experimental results demonstrate that: 1) MLLMs can achieve comparable, even better performance than the supervised single-modal models, even in a zero-shot scenario; 2) NFBL is an important cue in long sequential emotion analysis. EALD will be available on the open-source platform.
翻訳日:2024-05-02 15:17:48 公開日:2024-05-01
# グラフニューラルネットワークを用いた機能的MRIからの神経疾患のロバストバイオマーカーの発見

Discovering robust biomarkers of neurological disorders from functional MRI using graph neural networks: A Review ( http://arxiv.org/abs/2405.00577v1 )

ライセンス: Link先を確認
Yi Hao Chan, Deepank Girish, Sukrit Gupta, Jing Xia, Chockalingam Kasi, Yinan He, Conghao Wang, Jagath C. Rajapakse, (参考訳) 機能的磁気共鳴イメージング(fMRI)データセットをモデル化するための一般的なツールとして、グラフニューラルネットワーク(GNN)が登場した。 近年の多くの研究は、より洗練されたGNN設計による障害分類性能の大幅な改善を報告し、障害の潜在的なバイオマーカーとなる可能性のある有能な特徴を強調している。 本稿では,神経変性疾患や神経精神疾患に対するバイオマーカーの堅牢性に着目し,GNNとモデル説明可能性技術が障害予測タスクのfMRIデータセットにどのように応用されたかについて概説する。 その結果、ほとんどの研究には性能モデルがあるものの、これらの研究で強調された健全な特徴は、同じ障害の研究で大きく異なり、その堅牢性を評価するためにはほとんど行われていないことがわかった。 これらの課題に対処するために,これらのバイオマーカーのロバスト性を決定するために,客観的評価指標に基づく新しい標準を確立することを提案する。 我々は、既存の文献のギャップをさらに強調し、GNNを通して発見された潜在的なバイオマーカーの堅牢性を改善するための将来の研究の基盤となる、予測・貢献・評価の枠組みを構築した。

Graph neural networks (GNN) have emerged as a popular tool for modelling functional magnetic resonance imaging (fMRI) datasets. Many recent studies have reported significant improvements in disorder classification performance via more sophisticated GNN designs and highlighted salient features that could be potential biomarkers of the disorder. In this review, we provide an overview of how GNN and model explainability techniques have been applied on fMRI datasets for disorder prediction tasks, with a particular emphasis on the robustness of biomarkers produced for neurodegenerative diseases and neuropsychiatric disorders. We found that while most studies have performant models, salient features highlighted in these studies vary greatly across studies on the same disorder and little has been done to evaluate their robustness. To address these issues, we suggest establishing new standards that are based on objective evaluation metrics to determine the robustness of these potential biomarkers. We further highlight gaps in the existing literature and put together a prediction-attribution-evaluation framework that could set the foundations for future research on improving the robustness of potential biomarkers discovered via GNNs.
翻訳日:2024-05-02 15:17:48 公開日:2024-05-01
# The Real, the Better: Aligning Large Language Models with Online Human Behaviors

The Real, the Better: Aligning Large Language Models with Online Human Behaviors ( http://arxiv.org/abs/2405.00578v1 )

ライセンス: Link先を確認
Guanying Jiang, Lingyong Yan, Haibo Shi, Dawei Yin, (参考訳) 大規模言語モデルアライメントは、LLMが有害で有害な応答を引き起こすのを避けるために広く使われ、研究されている。 しかし、長いトレーニングプロセスと事前定義された嗜好バイアスは、オンラインの多様な人間の嗜好への適応を妨げる。 そこで本研究では,人間行動を用いた強化学習(Reinforcement Learning with Human Behavior, RLHB)というアライメントフレームワークを提案する。 ジェネレータは、生成的敵対的枠組みをとることにより、期待される人間の行動に従うように訓練される。一方、判別器は、実際のオンライン環境からクエリ、応答、人間の行動の三つ子を検証しようとする。 自然言語形式の行動モデリングと多モデル共同学習機構は、アクティブで持続可能なオンラインアライメントを可能にする。 提案手法の有効性を人的評価と自動評価の両方で検証した。

Large language model alignment is widely used and studied to avoid LLM producing unhelpful and harmful responses. However, the lengthy training process and predefined preference bias hinder adaptation to online diverse human preferences. To this end, this paper proposes an alignment framework, called Reinforcement Learning with Human Behavior (RLHB), to align LLMs by directly leveraging real online human behaviors. By taking the generative adversarial framework, the generator is trained to respond following expected human behavior; while the discriminator tries to verify whether the triplets of query, response, and human behavior come from real online environments. Behavior modeling in natural-language form and the multi-model joint training mechanism enable an active and sustainable online alignment. Experimental results confirm the effectiveness of our proposed methods by both human and automatic evaluations.
翻訳日:2024-05-02 15:17:48 公開日:2024-05-01
# GraCo: 粒度制御可能なインタラクティブセグメンテーション

GraCo: Granularity-Controllable Interactive Segmentation ( http://arxiv.org/abs/2405.00587v1 )

ライセンス: Link先を確認
Yian Zhao, Kehan Li, Zesen Cheng, Pengchong Qiao, Xiawu Zheng, Rongrong Ji, Chang Liu, Li Yuan, Jie Chen, (参考訳) インタラクティブセグメンテーション(IS)は、ユーザ入力に応じて画像内の特定のオブジェクトまたは部品をセグメント化する。 現在のISパイプラインは、単一粒度出力と多粒度出力の2つのカテゴリに分類される。 後者は、前者に存在する空間的あいまいさを軽減することを目的としている。 しかし、多粒度出力パイプラインは、限られた相互作用の柔軟性に悩まされ、冗長な結果を生み出す。 本研究では,グラニュラリティ・制御可能な対話型セグメンテーション(GraCo)を導入する。これは,入力に追加パラメータを導入することで,予測粒度を正確に制御できる新しいアプローチである。 これにより、インタラクティブシステムのカスタマイズが促進され、あいまいさを解消しながら冗長性を排除できる。 にもかかわらず、マルチグラニュラリティマスクのアノテートと粒度アノテーション付きデータセットの欠如は、モデルが出力粒度を制御するために必要なガイダンスを取得するのを困難にしている。 この問題に対処するために,事前学習したISモデルのセマンティック性を活かした任意のグラニュラリティマスク生成器を設計し,手書きのアノテーションを必要とせず,多量のマスク-グラニュラリティペアを自動生成する。 これらのペアに基づいて、ISモデルに粒度制御性を効率的に付与する粒度制御可能な学習戦略を提案する。 オブジェクトと部分レベルの複雑なシナリオに関する大規模な実験は、GraCoが以前の方法よりも大きな利点を持っていることを実証しています。 これはGraCoがフレキシブルなアノテーションツールになり、多様なセグメンテーションシナリオに適応できる可能性を強調している。 プロジェクトページ:https://zhao-yian.github.io/GraCo。

Interactive Segmentation (IS) segments specific objects or parts in the image according to user input. Current IS pipelines fall into two categories: single-granularity output and multi-granularity output. The latter aims to alleviate the spatial ambiguity present in the former. However, the multi-granularity output pipeline suffers from limited interaction flexibility and produces redundant results. In this work, we introduce Granularity-Controllable Interactive Segmentation (GraCo), a novel approach that allows precise control of prediction granularity by introducing additional parameters to input. This enhances the customization of the interactive system and eliminates redundancy while resolving ambiguity. Nevertheless, the exorbitant cost of annotating multi-granularity masks and the lack of available datasets with granularity annotations make it difficult for models to acquire the necessary guidance to control output granularity. To address this problem, we design an any-granularity mask generator that exploits the semantic property of the pre-trained IS model to automatically generate abundant mask-granularity pairs without requiring additional manual annotation. Based on these pairs, we propose a granularity-controllable learning strategy that efficiently imparts the granularity controllability to the IS model. Extensive experiments on intricate scenarios at object and part levels demonstrate that our GraCo has significant advantages over previous methods. This highlights the potential of GraCo to be a flexible annotation tool, capable of adapting to diverse segmentation scenarios. The project page: https://zhao-yian.github.io/GraCo.
翻訳日:2024-05-02 15:17:48 公開日:2024-05-01
# モデルがジェンダー関連言語を使わずにテキストにバイアスをかけるか?

Are Models Biased on Text without Gender-related Language? ( http://arxiv.org/abs/2405.00588v1 )

ライセンス: Link先を確認
Catarina G Belém, Preethi Seshadri, Yasaman Razeghi, Sameer Singh, (参考訳) ジェンダーバイアスの研究は、大きな言語モデルにおいて望ましくない行動を明らかにし、職業や感情に関連する深刻なジェンダーステレオタイプを明らかにする上で重要な役割を担っている。 先行研究における重要な観察は、トレーニングデータに存在する男女相関の結果、モデルがステレオタイプを強化することである。 本稿では,トレーニングデータの影響が不明瞭な場合のバイアスに着目し,その代わりに問題に対処する。 そこで本研究では,ステレオタイプフリーシナリオにおけるジェンダーバイアスを調査するための新しいフレームワークUnStereoEval(USE)を紹介する。 USEは事前学習データ統計に基づいて文レベルスコアを定義し、その文が単語と性別の関連が最小限であるかどうかを判定する。 ステレオタイプのないシナリオにおいて、人気のある言語モデルの公平性を体系的にベンチマークするために、USEを使用して、性別関連の言語を使わずにベンチマークを自動的に生成する。 USEの文レベルスコアを活用することで、非ステレオタイプ評価に先行性バイアスベンチマーク(WinobiasとWinogender)を再利用する。 意外なことに、28の試験モデル全体では、フェアネスが低い。 具体的には、モデルでは、ステレオタイプのない文のわずか9%-41%で公正な振る舞いを示しており、偏見は単にジェンダー関連の単語の存在に由来するものではないことを示唆している。 これらの結果は、基盤となるモデルバイアスがどこから来るのかという重要な疑問を提起し、より体系的で包括的なバイアス評価の必要性を強調します。 完全なデータセットとコードはhttps://ucinlp.github.io/unstereo-eval.orgで公開しています。

Gender bias research has been pivotal in revealing undesirable behaviors in large language models, exposing serious gender stereotypes associated with occupations, and emotions. A key observation in prior work is that models reinforce stereotypes as a consequence of the gendered correlations that are present in the training data. In this paper, we focus on bias where the effect from training data is unclear, and instead address the question: Do language models still exhibit gender bias in non-stereotypical settings? To do so, we introduce UnStereoEval (USE), a novel framework tailored for investigating gender bias in stereotype-free scenarios. USE defines a sentence-level score based on pretraining data statistics to determine if the sentence contain minimal word-gender associations. To systematically benchmark the fairness of popular language models in stereotype-free scenarios, we utilize USE to automatically generate benchmarks without any gender-related language. By leveraging USE's sentence-level score, we also repurpose prior gender bias benchmarks (Winobias and Winogender) for non-stereotypical evaluation. Surprisingly, we find low fairness across all 28 tested models. Concretely, models demonstrate fair behavior in only 9%-41% of stereotype-free sentences, suggesting that bias does not solely stem from the presence of gender-related words. These results raise important questions about where underlying model biases come from and highlight the need for more systematic and comprehensive bias evaluation. We release the full dataset and code at https://ucinlp.github.io/unstereo-eval.
翻訳日:2024-05-02 15:17:48 公開日:2024-05-01
# 高次元回帰におけるスケーリングと再正規化

Scaling and renormalization in high-dimensional regression ( http://arxiv.org/abs/2405.00592v1 )

ライセンス: Link先を確認
Alexander B. Atanasov, Jacob A. Zavatone-Veth, Cengiz Pehlevan, (参考訳) 本稿では、確率行列理論と自由確率の基本的なツールを用いて、多種多様な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。 本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。 トレーニングおよび一般化誤差の解析公式は、数行の代数において、自由確率の$S$-変換の性質から直接得られる。 これにより、モデルパフォーマンスにおけるパワーロースケーリングのソースを、簡単に特定できる。 我々は、広範囲のランダムな特徴モデルの一般化誤差を計算する。 すべてのモデルにおいて、$S$-変換は列車-テストの一般化ギャップに対応し、一般化されたクロスバリデーション推定器の類似性が得られる。 これらの手法を用いて、構造的共変量を持つランダム特徴モデルの非常に一般的なクラスに対して、きめ細かい偏差分解を導出する。 これらの新たな結果から,特徴量による分散が過度なパラメータ設定における性能を制限するような,ランダムな特徴モデルのスケーリング機構を見出すことができる。 また、ランダムな特徴モデルにおける異方性重み構造が性能を制限し、過パラメータ設定における有限幅補正のための非自明な指数を導出することを示す。 我々の結果は、ニューラルスケーリング法則の以前のモデルについて拡張し、統一的な視点を提供する。

This paper presents a succinct derivation of the training and generalization performance of a variety of high-dimensional ridge regression models using the basic tools of random matrix theory and free probability. We provide an introduction and review of recent results on these topics, aimed at readers with backgrounds in physics and deep learning. Analytic formulas for the training and generalization errors are obtained in a few lines of algebra directly from the properties of the $S$-transform of free probability. This allows for a straightforward identification of the sources of power-law scaling in model performance. We compute the generalization error of a broad class of random feature models. We find that in all models, the $S$-transform corresponds to the train-test generalization gap, and yields an analogue of the generalized-cross-validation estimator. Using these techniques, we derive fine-grained bias-variance decompositions for a very general class of random feature models with structured covariates. These novel results allow us to discover a scaling regime for random feature models where the variance due to the features limits performance in the overparameterized setting. We also demonstrate how anisotropic weight structure in random feature models can limit performance and lead to nontrivial exponents for finite-width corrections in the overparameterized setting. Our results extend and provide a unifying perspective on earlier models of neural scaling laws.
翻訳日:2024-05-02 15:17:48 公開日:2024-05-01
# Unbundle-Rewrite-Rebundle: JavaScriptバンドルにおけるプライバシハーミングコードの実行時検出と書き換え

Unbundle-Rewrite-Rebundle: Runtime Detection and Rewriting of Privacy-Harming Code in JavaScript Bundles ( http://arxiv.org/abs/2405.00596v1 )

ライセンス: Link先を確認
Mir Masood Ali, Peter Snyder, Chris Kanich, Hamed Haddadi, (参考訳) 本研究では,バンドルされたJavaScriptコードのプライバシ保護部分を検出するシステムであるUnbundle-Rewrite-Rebundle(URR)について紹介する。 URRはJavaScriptバンドルの問題に対する新しい解決策であり、Webサイトは複数のコードユニットを単一のファイルにプリコンパイルする。 従来のコンテンツフィルタリングツールがURLに依存している場合、URRはASTレベルでコードを解析し、有害なASTサブツリーをプライバシと機能的な代替品に置き換える。 本稿では,Firefox エクステンションとして URR をオープンソースとして実装し,Tranco 10k 上にデプロイされた最も一般的なバンドルシステム (Webpack) によって生成された JavaScript バンドルに対して評価する。 JavaScriptバンドルに含まれる3つの代表的なプライバシ障害ライブラリを検出して書き直す際に、精度(1.00)、リコール(0.95)、スピード(0.43s per-script)で測定されたパフォーマンスを測定し、現在のプライバシツールに従わない大規模で成長中のブラインドスポットに対する効果的なアプローチとして、IRRを見出した。

This work presents Unbundle-Rewrite-Rebundle (URR), a system for detecting privacy-harming portions of bundled JavaScript code, and rewriting that code at runtime to remove the privacy harming behavior without breaking the surrounding code or overall application. URR is a novel solution to the problem of JavaScript bundles, where websites pre-compile multiple code units into a single file, making it impossible for content filters and ad-blockers to differentiate between desired and unwanted resources. Where traditional content filtering tools rely on URLs, URR analyzes the code at the AST level, and replaces harmful AST sub-trees with privacy-and-functionality maintaining alternatives. We present an open-sourced implementation of URR as a Firefox extension, and evaluate it against JavaScript bundles generated by the most popular bundling system (Webpack) deployed on the Tranco 10k. We measure the performance, measured by precision (1.00), recall (0.95), and speed (0.43s per-script) when detecting and rewriting three representative privacy harming libraries often included in JavaScript bundles, and find URR to be an effective approach to a large-and-growing blind spot unaddressed by current privacy tools.
翻訳日:2024-05-02 15:17:48 公開日:2024-05-01
# 非アーベル対称性分解エントロピー

Non-abelian symmetry-resolved entanglement entropy ( http://arxiv.org/abs/2405.00597v1 )

ライセンス: Link先を確認
Eugenio Bianchi, Pietro Dona, Rishabh Kumar, (参考訳) 非アーベル対称性群を持つ対称解エンタングルメントエントロピーの数学的枠組みを導入する。 非アーベル電荷においてブロック対角となる還元密度行列を得るために、不変可観測体の部分代数の観点からサブシステムを定義する。 我々は、固定された非アーベル電荷を持つランダムな純粋状態のアンサンブルに対する典型的な絡み合いエントロピーの平均と分散の正確な公式を導出する。 コンパクトで半単純なリー群に焦点をあてる。 アーベルの場合と比較して、サブシステム交換の下でのエンタングルメントエントロピーの非対称性のような局所性と非アーベル対称性の相互作用から新たな現象が生じることを示し、SU(2)$対称性を持つ多体系のページ曲線を計算することによって詳細に示す。

We introduce a mathematical framework for symmetry-resolved entanglement entropy with a non-abelian symmetry group. To obtain a reduced density matrix that is block-diagonal in the non-abelian charges, we define subsystems operationally in terms of subalgebras of invariant observables. We derive exact formulas for the average and the variance of the typical entanglement entropy for the ensemble of random pure states with fixed non-abelian charges. We focus on compact, semisimple Lie groups. We show that, compared to the abelian case, new phenomena arise from the interplay of locality and non-abelian symmetry, such as the asymmetry of the entanglement entropy under subsystem exchange, which we show in detail by computing the Page curve of a many-body system with $SU(2)$ symmetry.
翻訳日:2024-05-02 15:17:48 公開日:2024-05-01
# 大規模言語モデルを用いた自動スコーリングとフィードバックの検討

Investigating Automatic Scoring and Feedback using Large Language Models ( http://arxiv.org/abs/2405.00602v1 )

ライセンス: Link先を確認
Gloria Ashiya Katuka, Alexander Gain, Yen-Yun Yu, (参考訳) 自動グルーピングとフィードバックは、従来の機械学習と言語モデルを用いたディープラーニング技術を用いて長い間研究されてきた。 LLaMA-2のような高性能な大規模言語モデル(LLM)への近年のアクセシビリティにより、これらのLLMを自動階調およびフィードバック生成に利用することを検討する機会がある。 性能が向上したにもかかわらず、LSMは微調整のための重要な計算資源と、それらのタスクのパフォーマンスを高めるための追加の特定の調整を必要とする。 これらの問題に対処するために、LoRAやQLoRAのようなパラメータ効率の良い微細チューニング(PEFT)手法が採用され、モデル微細チューニングにおけるメモリと計算の要求が低減された。 本稿では,PEFTに基づく量子化モデルの有効性について検討する。分類や回帰ヘッドを用いて,連続的な数値グレードを短時間の回答やエッセイに自動的に割り当てたり,対応するフィードバックを生成するための微調整LDMについて検討する。 タスク用のプロプライエタリデータセットとオープンソースデータセットの両方で実験を行いました。 その結果, 微調整LDMによる評価は精度が高く, 平均的に3%未満の誤差が得られた。 グレード化された4ビット量子化LLaMA-2 13Bモデルは、競争ベースモデルよりも優れており、高いBLEUとROUGEのスコアと質的にも、被験者の専門家のフィードバックと高い類似性が得られる。 本研究から得られた知見は,様々なダウンストリームタスクにおいて,量子化アプローチを用いて微調整 LLM を用いて,比較的低コストでフィードバックを生成できるような,新たな能力がもたらす影響について重要な知見を与えるものである。

Automatic grading and feedback have been long studied using traditional machine learning and deep learning techniques using language models. With the recent accessibility to high performing large language models (LLMs) like LLaMA-2, there is an opportunity to investigate the use of these LLMs for automatic grading and feedback generation. Despite the increase in performance, LLMs require significant computational resources for fine-tuning and additional specific adjustments to enhance their performance for such tasks. To address these issues, Parameter Efficient Fine-tuning (PEFT) methods, such as LoRA and QLoRA, have been adopted to decrease memory and computational requirements in model fine-tuning. This paper explores the efficacy of PEFT-based quantized models, employing classification or regression head, to fine-tune LLMs for automatically assigning continuous numerical grades to short answers and essays, as well as generating corresponding feedback. We conducted experiments on both proprietary and open-source datasets for our tasks. The results show that prediction of grade scores via finetuned LLMs are highly accurate, achieving less than 3% error in grade percentage on average. For providing graded feedback fine-tuned 4-bit quantized LLaMA-2 13B models outperform competitive base models and achieve high similarity with subject matter expert feedback in terms of high BLEU and ROUGE scores and qualitatively in terms of feedback. The findings from this study provide important insights into the impacts of the emerging capabilities of using quantization approaches to fine-tune LLMs for various downstream tasks, such as automatic short answer scoring and feedback generation at comparatively lower costs and latency.
翻訳日:2024-05-02 15:17:48 公開日:2024-05-01
# ドローンデータセットの軌道予測研究のための前処理と評価ツールボックス

A Preprocessing and Evaluation Toolbox for Trajectory Prediction Research on the Drone Datasets ( http://arxiv.org/abs/2405.00604v1 )

ライセンス: Link先を確認
Theodor Westny, Björn Olofsson, Erik Frisk, (参考訳) 高品質なデータセットの可用性は、自動運転車の行動予測アルゴリズムの開発に不可欠である。 本稿では、比較分析を簡略化するために、動き予測研究のための特定のデータセットの標準化の必要性を強調し、これを実現するための一連のツールとプラクティスを提案する。 筆者らは,広範な経験と現在の文献の総合的なレビューに基づいて,軌道予測問題に取り組む研究者向けに設計されたオープンソースツールボックスの形式で,事前処理,可視化,評価の提案を要約した。 必要な事前処理ステップと評価指標の明確な仕様は、開発作業を緩和し、異なる研究における結果の比較を容易にすることを目的としている。 ツールボックスは、https://github.com/westny/dronalize.comで入手できる。

The availability of high-quality datasets is crucial for the development of behavior prediction algorithms in autonomous vehicles. This paper highlights the need for standardizing the use of certain datasets for motion forecasting research to simplify comparative analysis and proposes a set of tools and practices to achieve this. Drawing on extensive experience and a comprehensive review of current literature, we summarize our proposals for preprocessing, visualizing, and evaluation in the form of an open-sourced toolbox designed for researchers working on trajectory prediction problems. The clear specification of necessary preprocessing steps and evaluation metrics is intended to alleviate development efforts and facilitate the comparison of results across different studies. The toolbox is available at: https://github.com/westny/dronalize.
翻訳日:2024-05-02 15:17:48 公開日:2024-05-01
# マトリックス製品の成長--最速、平均、総じて

Growth in products of matrices: fastest, average, and generic ( http://arxiv.org/abs/2405.00610v1 )

ライセンス: Link先を確認
Vladimir Shpilrain, (参考訳) この論文で私たちが考慮する問題は次のとおりである。 A と B を 2x2 行列(実数)とする。 w(A, B) を長さ n の語とする。 w(A, B) を行列の積として評価した後、2x2 行列を W と呼びます。n の関数として長さ n のすべての w(A, B) 上で W の最も大きい(絶対値による)入力は何か? 各行列が A または B で確率 0.5 であるような n 行列のランダム積における最大の(絶対値による)エントリーの絶対値は何でしょうか。 そのようなランダムな行列積に対するリャプノフ指数は何か。 これらの質問の第一に部分的な回答を与え、第二に本質的に完全な回答を与える。 第3の質問(三つの中で最も難しい)に対して、行列 A と B のすべての成分が非負である場合、リャプノフ指数上の上限を生成できる非常に単純な方法を提供する。

The problems that we consider in this paper are as follows. Let A and B be 2x2 matrices (over reals). Let w(A, B) be a word of length n. After evaluating w(A, B) as a product of matrices, we get a 2x2 matrix, call it W. What is the largest (by the absolute value) possible entry of W, over all w(A, B) of length n, as a function of n? What is the expected absolute value of the largest (by the absolute value) entry in a random product of n matrices, where each matrix is A or B with probability 0.5? What is the Lyapunov exponent for a random matrix product like that? We give partial answer to the first of these questions and an essentially complete answer to the second question. For the third question (the most difficult of the three), we offer a very simple method to produce an upper bound on the Lyapunov exponent in the case where all entries of the matrices A and B are nonnegative.
翻訳日:2024-05-02 15:17:48 公開日:2024-05-01
# トピックモデリングのための大規模言語モデルにおけるトピックの粒度と幻覚の対応

Addressing Topic Granularity and Hallucination in Large Language Models for Topic Modelling ( http://arxiv.org/abs/2405.00611v1 )

ライセンス: Link先を確認
Yida Mu, Peizhen Bai, Kalina Bontcheva, Xingyi Song, (参考訳) 強力なゼロショットトピック抽出機能を備えた大規模言語モデル(LLM)は、確率論的トピックモデリングとクローズドセットトピック分類アプローチに代わる手段を提供する。 ゼロショットトピック抽出器として, LLMは, 与えられた文書に基づいて, 関連性および非関連性のあるトピックを生成するための人間の指示を理解することが期待されている。 しかし、LLMベースのトピックモデリングアプローチは、人間の指示で規定された粒度に従順なトピックを生成するのに困難に直面し、多くの場合、多くのほぼ重複したトピックを生み出す。 さらに, LLM が生成する幻覚的話題に対処する方法についても検討されていない。 本稿では,LLMに基づくトピックモデリングにおけるトピックの粒度と幻覚の問題に焦点をあてる。 そこで我々は,Mistral-7B などのオープンソース LLM の微調整に DPO (Direct Preference Optimisation) を活用する新しい手法を提案する。 提案手法では,従来の人間のアノテーションを優先回答のランク付けに頼らず,LLMが生み出すトピックを再構築するための再構築パイプラインを用いて,高速かつ効率的なトレーニングと推論の枠組みを実現する。 比較実験により、我々の微調整アプローチは、より一貫性があり、関連性があり、正確なトピックを生成するLLMの能力を著しく改善するだけでなく、幻覚的トピックの数を減少させることが示された。

Large language models (LLMs) with their strong zero-shot topic extraction capabilities offer an alternative to probabilistic topic modelling and closed-set topic classification approaches. As zero-shot topic extractors, LLMs are expected to understand human instructions to generate relevant and non-hallucinated topics based on the given documents. However, LLM-based topic modelling approaches often face difficulties in generating topics with adherence to granularity as specified in human instructions, often resulting in many near-duplicate topics. Furthermore, methods for addressing hallucinated topics generated by LLMs have not yet been investigated. In this paper, we focus on addressing the issues of topic granularity and hallucinations for better LLM-based topic modelling. To this end, we introduce a novel approach that leverages Direct Preference Optimisation (DPO) to fine-tune open-source LLMs, such as Mistral-7B. Our approach does not rely on traditional human annotation to rank preferred answers but employs a reconstruction pipeline to modify raw topics generated by LLMs, thus enabling a fast and efficient training and inference framework. Comparative experiments show that our fine-tuning approach not only significantly improves the LLM's capability to produce more coherent, relevant, and precise topics, but also reduces the number of hallucinated topics.
翻訳日:2024-05-02 15:17:48 公開日:2024-05-01
# 多群ロバストネス

Multigroup Robustness ( http://arxiv.org/abs/2405.00614v1 )

ライセンス: Link先を確認
Lunjia Hu, Charlotte Peale, Judy Hanwen Shen, (参考訳) 実世界のデータセットの欠点に対処するため、ロバストな学習アルゴリズムは、任意の無差別なデータの破損を克服するために設計されている。 しかし、データ収集の実践的なプロセスは、トレーニングデータセットの特定のパーティションにローカライズされたデータ破損のパターンにつながる可能性がある。 重なり合うサブポピュレーションの豊富なコレクションから人に関する予測を行うために学習モデルをデプロイする重要なアプリケーションによって動機づけられた我々は、各サブポピュレーションの堅牢性を保証するマルチグループロバストアルゴリズムの研究を開始する。 データ破損がサブポピュレーション上で均一に分散されない場合、我々のアルゴリズムは、データ破損と影響したサブポピュレーションがどのように関連しているかを疑う標準保証よりも、より有意義な堅牢性を保証する。 本手法は,マルチグループフェアネスとロバストネスの新たな関係を確立する。

To address the shortcomings of real-world datasets, robust learning algorithms have been designed to overcome arbitrary and indiscriminate data corruption. However, practical processes of gathering data may lead to patterns of data corruption that are localized to specific partitions of the training dataset. Motivated by critical applications where the learned model is deployed to make predictions about people from a rich collection of overlapping subpopulations, we initiate the study of multigroup robust algorithms whose robustness guarantees for each subpopulation only degrade with the amount of data corruption inside that subpopulation. When the data corruption is not distributed uniformly over subpopulations, our algorithms provide more meaningful robustness guarantees than standard guarantees that are oblivious to how the data corruption and the affected subpopulations are related. Our techniques establish a new connection between multigroup fairness and robustness.
翻訳日:2024-05-02 15:17:48 公開日:2024-05-01
# 拡散モデルによる線分微細化

Lane Segmentation Refinement with Diffusion Models ( http://arxiv.org/abs/2405.00620v1 )

ライセンス: Link先を確認
Antonio Ruiz, Andrew Melnik, Dong Wang, Helge Ritter, (参考訳) レーングラフはハイデフィニション(HD)マップを構築する上で重要な要素であり、自動運転やナビゲーション計画といった下流業務に不可欠である。 He et al (2022) は、セグメンテーションに基づくアプローチを用いて、空中画像からレーンレベルグラフの抽出を探索した。 しかし、セグメンテーションネットワークは完全なセグメンテーションマスクを達成するのに苦労し、不正確なレーングラフ抽出をもたらす。 我々は,このセグメンテーションに基づくアプローチを洗練し,拡散確率モデル(DPM)コンポーネントで拡張するためのさらなる拡張について検討する。 この組み合わせは、非断面積の非方向グラフにおけるレーングラフの品質の重要な指標であるGEO F1とTOPO F1のスコアをさらに改善する。 提案手法は,TOPO F1スコアによって測定されたグラフの接続性の向上において,従来の手法よりも優れていることを示す。 さらに,本手法の個々の構成要素に関するアブレーション研究を行い,それらの貢献を理解し,有効性を評価する。

The lane graph is a key component for building high-definition (HD) maps and crucial for downstream tasks such as autonomous driving or navigation planning. Previously, He et al. (2022) explored the extraction of the lane-level graph from aerial imagery utilizing a segmentation based approach. However, segmentation networks struggle to achieve perfect segmentation masks resulting in inaccurate lane graph extraction. We explore additional enhancements to refine this segmentation-based approach and extend it with a diffusion probabilistic model (DPM) component. This combination further improves the GEO F1 and TOPO F1 scores, which are crucial indicators of the quality of a lane graph, in the undirected graph in non-intersection areas. We conduct experiments on a publicly available dataset, demonstrating that our method outperforms the previous approach, particularly in enhancing the connectivity of such a graph, as measured by the TOPO F1 score. Moreover, we perform ablation studies on the individual components of our method to understand their contribution and evaluate their effectiveness.
翻訳日:2024-05-02 15:07:37 公開日:2024-05-01
# 言語モデルの因果評価

Causal Evaluation of Language Models ( http://arxiv.org/abs/2405.00622v1 )

ライセンス: Link先を確認
Sirui Chen, Bo Peng, Meiqi Chen, Ruiqi Wang, Mengying Xu, Xingyu Zeng, Rui Zhao, Shengjie Zhao, Yu Qiao, Chaochao Lu, (参考訳) 因果推論は人間レベルのマシンインテリジェンスを達成するために重要であると見なされている。 言語モデルの最近の進歩は、人工知能の地平線を様々な領域に広げ、因果推論の可能性に疑問を投げかけている。 本稿では,言語モデルの因果的推論能力を評価するための,最初の総合的なベンチマークであるCausal Evaluation of Language Models (CaLM)を紹介する。 まず、因果的対象(評価対象)、適応(結果の取得方法)、メートル法(結果の計測方法)、エラー(悪い結果の分析方法)の4つのモジュールからなる基本的な分類法を確立するCaLMフレームワークを提案する。 この分類法は、基準と優先順位を体系的に選択しながら、幅広い評価設計空間を定義する。 第2に、126,334データサンプルからなるCaLMデータセットを作成し、因果的目標、適応、メトリクス、エラーのキュレートされたセットを提供し、多様な研究の追求のために広範囲にわたるカバレッジを提供する。 第3に、92の因果的目標、9の適応、7のメトリクス、12のエラータイプからなるコアセットに基づいて、28の言語モデルを広範囲に評価する。 第4に、様々な次元(例えば、適応、スケール)で評価結果を詳細に分析する。 第5に,9次元(例えばモデル)にまたがる50のハイレベルな経験的発見を提示し,将来の言語モデル開発に有用なガイダンスを提供する。 最後に、スケーラブルで適応可能なアセスメントをサポートするWebサイト、リーダーボード、データセット、ツールキットを含む、多面的なプラットフォームを開発します。 我々は,新たな因果的目標,適応,モデル,メトリクス,エラータイプを体系的に更新し,現在進行中の研究進歩を反映した,コミュニティのための絶え間なく進化するベンチマークとして,CaLMを想定する。 プロジェクトのWebサイトはhttps://opencausalab.github.io/CaLMにある。

Causal reasoning is viewed as crucial for achieving human-level machine intelligence. Recent advances in language models have expanded the horizons of artificial intelligence across various domains, sparking inquiries into their potential for causal reasoning. In this work, we introduce Causal evaluation of Language Models (CaLM), which, to the best of our knowledge, is the first comprehensive benchmark for evaluating the causal reasoning capabilities of language models. First, we propose the CaLM framework, which establishes a foundational taxonomy consisting of four modules: causal target (i.e., what to evaluate), adaptation (i.e., how to obtain the results), metric (i.e., how to measure the results), and error (i.e., how to analyze the bad results). This taxonomy defines a broad evaluation design space while systematically selecting criteria and priorities. Second, we compose the CaLM dataset, comprising 126,334 data samples, to provide curated sets of causal targets, adaptations, metrics, and errors, offering extensive coverage for diverse research pursuits. Third, we conduct an extensive evaluation of 28 leading language models on a core set of 92 causal targets, 9 adaptations, 7 metrics, and 12 error types. Fourth, we perform detailed analyses of the evaluation results across various dimensions (e.g., adaptation, scale). Fifth, we present 50 high-level empirical findings across 9 dimensions (e.g., model), providing valuable guidance for future language model development. Finally, we develop a multifaceted platform, including a website, leaderboards, datasets, and toolkits, to support scalable and adaptable assessments. We envision CaLM as an ever-evolving benchmark for the community, systematically updated with new causal targets, adaptations, models, metrics, and error types to reflect ongoing research advancements. Project website is at https://opencausalab.github.io/CaLM.
翻訳日:2024-05-02 15:07:37 公開日:2024-05-01
# 大言語モデルにおける不確かさ表現がユーザ信頼と信頼に与える影響について

"I'm Not Sure, But...": Examining the Impact of Large Language Models' Uncertainty Expression on User Reliance and Trust ( http://arxiv.org/abs/2405.00623v1 )

ライセンス: Link先を確認
Sunnie S. Y. Kim, Q. Vera Liao, Mihaela Vorvoreanu, Stephanie Ballard, Jennifer Wortman Vaughan, (参考訳) 広範にデプロイされた大きな言語モデル(LLM)は、説得力のあるが誤ったアウトプットを生成することができる。 このような過度な信頼性を減らすため、LDMはエンドユーザに不確実性を伝えるよう要求されている。 しかし,LLMの不確実性表現に対する利用者の認識と行動について,実証的な研究はほとんど行われていない。 我々は,この疑問を,SF的なLLM注入検索エンジンから回答を得るか否かに関わらず,参加者が医療質問に回答する,大規模で事前登録された人物体実験(N=404)を通して探求する。 行動と自己報告の両方の尺度を用いて、不確実性の自然言語表現の違いが、参加者の信頼、信頼、全体的なタスクパフォーマンスにどのように影響するかを検討する。 第一人称表現(例えば「私は確信していないが...」)は、参加者のシステムに対する信頼度を低下させ、参加者の正確性を高めながら、システムの回答に同調する傾向にある。 探索的な分析では、この増加は誤った答えに対する過度な信頼を減らした(しかし完全に排除されていない)ことに起因することが示唆されている。 一般的な見地から表現された不確実性に対する同様の効果(例えば、"それは明確ではないが...")を観察する一方で、これらの効果はより弱く統計的に有意ではない。 以上の結果から,不確実性の自然言語表現の使用は,LLMの過度な依存を軽減するための効果的なアプローチである可能性が示唆された。 これにより、LLMを大規模にデプロイする前に、ユーザテストの重要性が強調される。

Widely deployed large language models (LLMs) can produce convincing yet incorrect outputs, potentially misleading users who may rely on them as if they were correct. To reduce such overreliance, there have been calls for LLMs to communicate their uncertainty to end users. However, there has been little empirical work examining how users perceive and act upon LLMs' expressions of uncertainty. We explore this question through a large-scale, pre-registered, human-subject experiment (N=404) in which participants answer medical questions with or without access to responses from a fictional LLM-infused search engine. Using both behavioral and self-reported measures, we examine how different natural language expressions of uncertainty impact participants' reliance, trust, and overall task performance. We find that first-person expressions (e.g., "I'm not sure, but...") decrease participants' confidence in the system and tendency to agree with the system's answers, while increasing participants' accuracy. An exploratory analysis suggests that this increase can be attributed to reduced (but not fully eliminated) overreliance on incorrect answers. While we observe similar effects for uncertainty expressed from a general perspective (e.g., "It's not clear, but..."), these effects are weaker and not statistically significant. Our findings suggest that using natural language expressions of uncertainty may be an effective approach for reducing overreliance on LLMs, but that the precise language used matters. This highlights the importance of user testing before deploying LLMs at scale.
翻訳日:2024-05-02 15:07:37 公開日:2024-05-01
# 人工記憶量子ニューロンのヒステリシスと自励

Hysteresis and Self-Oscillations in an Artificial Memristive Quantum Neuron ( http://arxiv.org/abs/2405.00624v1 )

ライセンス: Link先を確認
Finlay Potter, Alexandre Zagoskin, Sergey Saveliev, Alexander G Balanov, (参考訳) 我々は, 量子メムリスタを含む人工ニューロン回路を, 緩和と脱落の存在下で理論的に検討した。 量子要素の電荷輸送は、2つの端子の間を移動する量子粒子を通して電荷のトンネルによって実現される。 この物理原理は、量子デバイスの電流電圧特性のヒステリシス的挙動を可能にすることを実証する。 さらに、人工ニューラルネットワークで使用されるため、量子スイッチャーは自己持続電流発振を発生させることができる。 この分析により、これらの自己振動は、緩和速度が適度な量子状態においてのみ引き起こされ、純粋なコヒーレントな状態でも非常に高いデコヒーレンスでも存在できないことが明らかとなった。 本研究では,現在の自己振動の発生に繋がるヒステリシスと不安定性について検討し,その特性を回路パラメータによって解析する。 この結果は、ヒステリシスを制御し、自己振動を生成するための量子レシエーションの利用に対する一般的なアプローチを提供する。

We theoretically study an artificial neuron circuit containing a quantum memristor in the presence of relaxation and dephasing. The charge transport in the quantum element is realized via tunneling of a charge through a quantum particle which shuttles between two terminals -- a functionality reminiscent of classical diffusive memristors. We demonstrate that this physical principle enables hysteretic behavior of the current-voltage characteristics of the quantum device. In addition, being used in artificial neural circuit, the quantum switcher is able to generate self-sustained current oscillations. Our analysis reveals that these self-oscillations are triggered only in quantum regime with a moderate rate of relaxation, and cannot exist either in a purely coherent regime or at a very high decoherence. We investigate the hysteresis and instability leading to the onset of current self-oscillations and analyze their properties depending on the circuit parameters. Our results provide a generic approach to the use of quantum regimes for controlling hysteresis and generating self-oscillations.
翻訳日:2024-05-02 15:07:37 公開日:2024-05-01
# 強化学習によるラウンドアウェイにおける待ち行列型エコドライブ

Queue-based Eco-Driving at Roundabouts with Reinforcement Learning ( http://arxiv.org/abs/2405.00625v1 )

ライセンス: Link先を確認
Anna-Lena Schlamp, Werner Huber, Stefanie Schmidtner, (参考訳) 我々は、都市部における交通の流れと交通効率を高めるために、混在交通におけるラウンドアバウンドでのエコ運転に対処する。 目的は、自動または非自動連結車両(CV)の速度を積極的に最適化し、効率的なアプローチとラウンドアバウンドへのスムーズな参入を確実にすることである。 我々は先進的な交通状況、すなわち先行車両や待ち行列を取り入れている。 さらに,ルールベースと強化学習(Reinforcement Learning, RL)ベースのエコ自動運転システムという2つのアプローチを開発し,そのアプローチリンクと競合するCVからの情報を用いて速度最適化を行う。 ルールベースとRLベースのアプローチを公正に比較し、古典最適化の代替としてRLを探索する。 その結果、どちらのアプローチもベースラインを上回っていることがわかった。 交通量の増加に伴い、改善が著しく増加し、高いボリュームで得られる平均値の最良の結果が得られた。 キャパシティに近い性能は低下し、キャパシティの制限による適用性が制限される。 CV透過率の異なる試験では, 性能の低下が見られたが, CV透過率の低下は相変わらず顕著であった。 RLエージェントは、動的ラウンドアバウンド設定において、スピード最適化のための効果的なポリシーを発見することができるが、古典的なアプローチ、特に高いトラフィック量や低いCV浸透率に対して、大きな優位性を提供していない。

We address eco-driving at roundabouts in mixed traffic to enhance traffic flow and traffic efficiency in urban areas. The aim is to proactively optimize speed of automated or non-automated connected vehicles (CVs), ensuring both an efficient approach and smooth entry into roundabouts. We incorporate the traffic situation ahead, i.e. preceding vehicles and waiting queues. Further, we develop two approaches: a rule-based and an Reinforcement Learning (RL) based eco-driving system, with both using the approach link and information from conflicting CVs for speed optimization. A fair comparison of rule-based and RL-based approaches is performed to explore RL as a viable alternative to classical optimization. Results show that both approaches outperform the baseline. Improvements significantly increase with growing traffic volumes, leading to best results on average being obtained at high volumes. Near capacity, performance deteriorates, indicating limited applicability at capacity limits. Examining different CV penetration rates, a decline in performance is observed, but with substantial results still being achieved at lower CV rates. RL agents can discover effective policies for speed optimization in dynamic roundabout settings, but they do not offer a substantial advantage over classical approaches, especially at higher traffic volumes or lower CV penetration rates.
翻訳日:2024-05-02 15:07:37 公開日:2024-05-01
# 非線形システム推定のためのクープマンに基づくディープラーニング

Koopman-based Deep Learning for Nonlinear System Estimation ( http://arxiv.org/abs/2405.00627v1 )

ライセンス: Link先を確認
Zexin Sun, Mingyu Chen, John Baillieul, (参考訳) 非線形微分方程式は、流体の流れ、スパイクニューロン、および多くの実世界への関心のモデルとして用いられる。 これらのシステムの一般的な特徴は、それらの振る舞いを正確に記述することが困難であり、常に非モデル化された力学が正確な予測を行う上での課題を示すことである。 多くの場合、モデルは非常に複雑な振る舞いを示す。 本論文では、クープマン作用素理論を用いて複素非線形系の有限次元表現を抽出する新しいデータ駆動線形推定器を提案する。 抽出したモデルは、元の非線形システムの将来の状態を予測するための最適なステップワイズ動作を学習する深層強化学習ネットワークと共に使用される。 我々の推定器は非線形システムの微分型変換にも適応しており、変換されたシステムの状態推定をスクラッチから再学習することなく、転送学習で計算することができる。

Nonlinear differential equations are encountered as models of fluid flow, spiking neurons, and many other systems of interest in the real world. Common features of these systems are that their behaviors are difficult to describe exactly and invariably unmodeled dynamics present challenges in making precise predictions. In many cases the models exhibit extremely complicated behavior due to bifurcations and chaotic regimes. In this paper, we present a novel data-driven linear estimator that uses Koopman operator theory to extract finite-dimensional representations of complex nonlinear systems. The extracted model is used together with a deep reinforcement learning network that learns the optimal stepwise actions to predict future states of the original nonlinear system. Our estimator is also adaptive to a diffeomorphic transformation of the nonlinear system which enables transfer learning to compute state estimates of the transformed system without relearning from scratch.
翻訳日:2024-05-02 15:07:37 公開日:2024-05-01
# HUGO -- 深い強化学習とヒューリスティックなターゲットトポロジーアプローチを組み合わせたハイライトなグリッドオプション

HUGO -- Highlighting Unseen Grid Options: Combining Deep Reinforcement Learning with a Heuristic Target Topology Approach ( http://arxiv.org/abs/2405.00629v1 )

ライセンス: Link先を確認
Malte Lehna, Clara Holzhüter, Sven Tomforde, Christoph Scholz, (参考訳) 再生可能エネルギー(RE)発電の増加に伴い、電力グリッドの運用はますます複雑になっている。 そこでは、Deep Reinforcement Learning(DRL)がLearning to Run a Power Network(L2RPN)の課題に対して、大きな可能性を繰り返し示している。 しかし、既存のDRLアルゴリズムでは、サブステーションレベルでの個々の動作のみがトポロジー最適化の対象となっている。 対照的に,本論文では,特定のターゲットトポロジ(TT)をアクションとして提案することで,より包括的なアプローチを提案する。 これらのトポロジはその堅牢性に基づいて選択される。 本稿では,従来のDRLエージェントであるCurriculumAgent(CAgent)を新しいトポロジーエージェントにアップグレードする検索アルゴリズムを提案する。 アップグレードを以前のCAgentエージェントと比較し、スコアを10%向上させることができる。 さらに, TTを含む中央値生存率は25%向上した。 後の分析では、ほとんど全てのTTがベーストポロジに近く、その堅牢性を説明する。

With the growth of Renewable Energy (RE) generation, the operation of power grids has become increasingly complex. One solution is automated grid operation, where Deep Reinforcement Learning (DRL) has repeatedly shown significant potential in Learning to Run a Power Network (L2RPN) challenges. However, only individual actions at the substation level have been subjected to topology optimization by most existing DRL algorithms. In contrast, we propose a more holistic approach in this paper by proposing specific Target Topologies (TTs) as actions. These topologies are selected based on their robustness. As part of this paper, we present a search algorithm to find the TTs and upgrade our previously developed DRL agent CurriculumAgent (CAgent) to a novel topology agent. We compare the upgrade to the previous CAgent agent and can increase their scores significantly by 10%. Further, we achieve a 25% better median survival with our TTs included. Later analysis shows that almost all TTs are close to the base topology, explaining their robustness.
翻訳日:2024-05-02 15:07:37 公開日:2024-05-01
# 神経放射場除去における深さ先行

Depth Priors in Removal Neural Radiance Fields ( http://arxiv.org/abs/2405.00630v1 )

ライセンス: Link先を確認
Zhihao Guo, Peng Wang, (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は3次元再構成と新しいビューの生成において顕著な結果を示した。 NeRFにおける重要な課題は、オブジェクトの削除のような再構成されたシーンの編集である。 従来の研究は、通常、LiDARやCOLMAPが提供するスパース深度測定から、NeRFにおける物体除去性能を改善するために、深度事前を組み込んできた。 しかし、これらの手法は費用がかかるか時間がかかるかのいずれかである。 本論文では,モノラル深度推定をNeRFを用いた物体除去モデルと統合し,時間消費を大幅に削減し,シーン生成と物体除去の堅牢性と品質を高める手法を提案する。 我々は,深度マップ生成における精度を検証するため,KITTIデータセット上でのCOLMAPの深度深度再構成の徹底的な評価を行った。 以上の結果から,COLMAPは,情報不足や入手に費用がかかる地底真理深度マップの代替として有効である可能性が示唆された。 さらに, 物体除去性能を向上させるために, 各種単分子深度推定法をSpinNeRFモデルに組み込んだ。 実験の結果,NeRFの適用性を大幅に向上させる単分子深度推定の可能性を強調した。

Neural Radiance Fields (NeRF) have shown impressive results in 3D reconstruction and generating novel views. A key challenge within NeRF is the editing of reconstructed scenes, such as object removal, which requires maintaining consistency across multiple views and ensuring high-quality synthesised perspectives. Previous studies have incorporated depth priors, typically from LiDAR or sparse depth measurements provided by COLMAP, to improve the performance of object removal in NeRF. However, these methods are either costly or time-consuming. In this paper, we propose a novel approach that integrates monocular depth estimates with NeRF-based object removal models to significantly reduce time consumption and enhance the robustness and quality of scene generation and object removal. We conducted a thorough evaluation of COLMAP's dense depth reconstruction on the KITTI dataset to verify its accuracy in depth map generation. Our findings suggest that COLMAP can serve as an effective alternative to a ground truth depth map where such information is missing or costly to obtain. Additionally, we integrated various monocular depth estimation methods into the removal NeRF model, i.e., SpinNeRF, to assess their capacity to improve object removal performance. Our experimental results highlight the potential of monocular depth estimation to substantially improve NeRF applications.
翻訳日:2024-05-02 15:07:37 公開日:2024-05-01
# 合成外周露を用いた深度学習に基づくアウトオブディストリビューション検出

Deep Metric Learning-Based Out-of-Distribution Detection with Synthetic Outlier Exposure ( http://arxiv.org/abs/2405.00631v1 )

ライセンス: Link先を確認
Assefa Seyoum Wahd, (参考訳) 本稿では, 拡散モデルを用いた深層学習と合成データ生成を併用して, アウト・オブ・ディストリビューション(OOD)の検出を行う手法を提案する。 OOD検出の1つの一般的なアプローチは、アウトレイラ露光であり、モデルがIn-distriion (ID) サンプルと ``seen' OOD サンプルの混合を用いて訓練される。 OODサンプルに対しては、出力確率と均一分布とのKL分散を最小限に抑えながら、分布内データ(ID)を正しく分類するように訓練する。 本稿では,Denoising Diffusion Probabilistic Models (DDPM) を用いたOODデータ生成のためのラベル混合手法を提案する。 さらに、モデルをトレーニングするためのメートル法学習の最近の進歩についても検討する。 実験の結果,メトリック学習に基づく損失関数はソフトマックスよりも優れていた。 さらに、ベースラインモデル(ソフトマックス、メトリックラーニングを含む)は、生成されたOODデータでトレーニングした場合、大幅に改善される。 提案手法は従来のOOD検出指標において高いベースラインを達成している。

In this paper, we present a novel approach that combines deep metric learning and synthetic data generation using diffusion models for out-of-distribution (OOD) detection. One popular approach for OOD detection is outlier exposure, where models are trained using a mixture of in-distribution (ID) samples and ``seen" OOD samples. For the OOD samples, the model is trained to minimize the KL divergence between the output probability and the uniform distribution while correctly classifying the in-distribution (ID) data. In this paper, we propose a label-mixup approach to generate synthetic OOD data using Denoising Diffusion Probabilistic Models (DDPMs). Additionally, we explore recent advancements in metric learning to train our models. In the experiments, we found that metric learning-based loss functions perform better than the softmax. Furthermore, the baseline models (including softmax, and metric learning) show a significant improvement when trained with the generated OOD data. Our approach outperforms strong baselines in conventional OOD detection metrics.
翻訳日:2024-05-02 15:07:37 公開日:2024-05-01
# 量子化が大規模言語モデルの信頼性にいつ影響するか?

When Quantization Affects Confidence of Large Language Models? ( http://arxiv.org/abs/2405.00632v1 )

ライセンス: Link先を確認
Irina Proskurina, Luc Brun, Guillaume Metzler, Julien Velcin, (参考訳) 近年,Large Language Models (LLMs) に対して,学習後の量子化や低ビット重み表現による効率的な圧縮手法が提案されている。 量子化重みは記憶効率を向上し、より高速な推論を可能にするが、既存の研究は量子化が性能を損なう可能性を示し、LLMのバイアスを悪化させることを示唆している。 本研究では,量子化モデルの信頼性とキャリブレーションについて検討し,量子化損失の寄与要因として言語モデル型やスケールなどの因子を考察した。 まず,GPTQから4ビットへの量子化が真のラベルに対する信頼度を低下させることを示す。 第2に、異なる尺度における信頼への影響の変動を観察する。 最後に、信頼度に基づく量子化損失の説明を行い、量子化が不均等に、完全モデルがそもそも低い信頼度を示すサンプルに影響を及ぼすことを示す。

Recent studies introduced effective compression techniques for Large Language Models (LLMs) via post-training quantization or low-bit weight representation. Although quantized weights offer storage efficiency and allow for faster inference, existing works have indicated that quantization might compromise performance and exacerbate biases in LLMs. This study investigates the confidence and calibration of quantized models, considering factors such as language model type and scale as contributors to quantization loss. Firstly, we reveal that quantization with GPTQ to 4-bit results in a decrease in confidence regarding true labels, with varying impacts observed among different language models. Secondly, we observe fluctuations in the impact on confidence across different scales. Finally, we propose an explanation for quantization loss based on confidence levels, indicating that quantization disproportionately affects samples where the full model exhibited low confidence levels in the first place.
翻訳日:2024-05-02 15:07:37 公開日:2024-05-01
# コミュニティ検出のためのグラフ埋め込み法のロバスト性

Robustness of graph embedding methods for community detection ( http://arxiv.org/abs/2405.00636v1 )

ライセンス: Link先を確認
Zhi-Feng Wei, Pablo Moriano, Ramakrishnan Kannan, (参考訳) 本研究では,ネットワーク摂動面,特にエッジ削除面におけるコミュニティ検出のためのグラフ埋め込み手法のロバスト性について検討する。 ノードを低次元ベクトルとして表現するグラフ埋め込み技術は、ネットワークの構造特性を効果的に捉える能力から、様々なグラフ機械学習タスクに広く利用されている。 しかし, 摂動がこれらの手法の性能に与える影響については, 比較的検討が続けられている。 この研究では、行列分解(eg, LE, LLE, HOPE, M-NMF)とランダムウォークベース(eg, DeepWalk, LINE, node2vec)の2つのファミリーの最先端グラフ埋め込み手法について考察した。 合成ネットワークと実世界のネットワークの両方で実施された実験により、グラフ埋め込み手法のそれぞれのファミリー内で、さまざまな堅牢性を示す。 このロバスト性は、ネットワークサイズ、初期コミュニティ分割強度、摂動の種類などの影響を受けている。 特に node2vec と LLE は,ネットワークの次数やコミュニティサイズの不均一性など,さまざまなシナリオにおけるコミュニティ検出の堅牢性の向上を一貫して示している。 これらの知見は,特に摂動に対するロバスト性が重要であるシナリオにおいて,ネットワークの特性と課題に基づいて適切なグラフ埋め込み手法を選択することの重要性を強調した。

This study investigates the robustness of graph embedding methods for community detection in the face of network perturbations, specifically edge deletions. Graph embedding techniques, which represent nodes as low-dimensional vectors, are widely used for various graph machine learning tasks due to their ability to capture structural properties of networks effectively. However, the impact of perturbations on the performance of these methods remains relatively understudied. The research considers state-of-the-art graph embedding methods from two families: matrix factorization (e.g., LE, LLE, HOPE, M-NMF) and random walk-based (e.g., DeepWalk, LINE, node2vec). Through experiments conducted on both synthetic and real-world networks, the study reveals varying degrees of robustness within each family of graph embedding methods. The robustness is found to be influenced by factors such as network size, initial community partition strength, and the type of perturbation. Notably, node2vec and LLE consistently demonstrate higher robustness for community detection across different scenarios, including networks with degree and community size heterogeneity. These findings highlight the importance of selecting an appropriate graph embedding method based on the specific characteristics of the network and the task at hand, particularly in scenarios where robustness to perturbations is crucial.
翻訳日:2024-05-02 15:07:37 公開日:2024-05-01
# 経験的観察から普遍性へ:ガウス混合に基づく入力によるディープラーニングのダイナミクス

From Empirical Observations to Universality: Dynamics of Deep Learning with Inputs Built on Gaussian mixture ( http://arxiv.org/abs/2405.00642v1 )

ライセンス: Link先を確認
Jaeyong Bae, Hawoong Jeong, (参考訳) 本研究は,ガウス混合(GM)の構造的特徴を示す入力を用いて,ニューラルネットワークの力学を掘り下げることにより,ディープラーニングにおける理論的枠組みの範囲を広げる。 我々は、GM構造入力下のニューラルネットワークのダイナミクスが、単純なガウス構造に基づく従来の理論の予測からどのように分岐するかを解析した。 我々の研究は、GM入力が標準化されても、従来の理論に対するニューラルネットワークのダイナミクスの観測的収束であり、予期せぬ普遍性を浮き彫りにしている。 標準化は、特にある種の非線形関数とともに、この現象において重要な役割を果たすことが判明した。 その結果、GM分布の複雑で多様な性質にもかかわらず、ニューラルネットワークは単純なガウスの枠組みの下での予測と一致して漸近的な振る舞いを示すことを示した。

This study broadens the scope of theoretical frameworks in deep learning by delving into the dynamics of neural networks with inputs that demonstrate the structural characteristics to Gaussian Mixture (GM). We analyzed how the dynamics of neural networks under GM-structured inputs diverge from the predictions of conventional theories based on simple Gaussian structures. A revelation of our work is the observed convergence of neural network dynamics towards conventional theory even with standardized GM inputs, highlighting an unexpected universality. We found that standardization, especially in conjunction with certain nonlinear functions, plays a critical role in this phenomena. Consequently, despite the complex and varied nature of GM distributions, we demonstrate that neural networks exhibit asymptotic behaviors in line with predictions under simple Gaussian frameworks.
翻訳日:2024-05-02 15:07:37 公開日:2024-05-01
# ConstrainedZero:学習確率的故障サロゲートと適応安全制約を用いた環境制約付きPMDP計画

ConstrainedZero: Chance-Constrained POMDP Planning using Learned Probabilistic Failure Surrogates and Adaptive Safety Constraints ( http://arxiv.org/abs/2405.00644v1 )

ライセンス: Link先を確認
Robert J. Moss, Arec Jamgochian, Johannes Fischer, Anthony Corso, Mykel J. Kochenderfer, (参考訳) 不確実な環境で安全に計画するには、エージェントはユーティリティと安全性の制約のバランスをとる必要がある。 安全な計画問題は、確率制約のある部分的に観測可能なマルコフ決定プロセス(CC-POMDP)としてモデル化することができ、ソリューションはしばしば、最適な値と行動選択ポリシーを推定するために高価なロールアウトまたはヒューリスティックを使用する。 本研究は,信念空間におけるCC-POMDPの解法であるConstrainedZeroポリシー反復アルゴリズムを導入する。 この故障確率は、オンラインモンテカルロ木探索(MCTS)中の安全な行動選択を導く。 故障推定値に基づいて探索を過度に強調するのを避けるために,適応型共形推論を用いて計画中の故障閾値を更新する$\Delta$-MCTSを導入する。 この手法は、安全クリティカルなPMDPベンチマーク、航空機衝突回避システム、および安全なCO$2$ストレージの持続可能性問題で試験される。 その結果, 目標から安全制約を分離することで, 報酬とコストのバランスを最適化することなく, 目標となる安全レベルを達成できることが示唆された。

To plan safely in uncertain environments, agents must balance utility with safety constraints. Safe planning problems can be modeled as a chance-constrained partially observable Markov decision process (CC-POMDP) and solutions often use expensive rollouts or heuristics to estimate the optimal value and action-selection policy. This work introduces the ConstrainedZero policy iteration algorithm that solves CC-POMDPs in belief space by learning neural network approximations of the optimal value and policy with an additional network head that estimates the failure probability given a belief. This failure probability guides safe action selection during online Monte Carlo tree search (MCTS). To avoid overemphasizing search based on the failure estimates, we introduce $\Delta$-MCTS, which uses adaptive conformal inference to update the failure threshold during planning. The approach is tested on a safety-critical POMDP benchmark, an aircraft collision avoidance system, and the sustainability problem of safe CO$_2$ storage. Results show that by separating safety constraints from the objective we can achieve a target level of safety without optimizing the balance between rewards and costs.
翻訳日:2024-05-02 15:07:37 公開日:2024-05-01
# 勾配に基づくニューラルネットワークオンチップの重み付き混合精度量子化

Gradient-based Automatic Per-Weight Mixed Precision Quantization for Neural Networks On-Chip ( http://arxiv.org/abs/2405.00645v1 )

ライセンス: Link先を確認
Chang Sun, Thea K. Årrestad, Vladimir Loncar, Jennifer Ngadiuba, Maria Spiropulu, (参考訳) モデルのサイズとデプロイメント時の推論速度は、多くのディープラーニングアプリケーションにおいて大きな課題である。 これらの課題を克服するための有望な戦略は量子化である。 しかし、非常に低い精度で単純で均一な量子化を行うと、かなりの精度が失われる。 混合精度量子化(Mixed-precision Quantization)は、ネットワークの一部が他の部分と比べて性能を損なうことなく低い精度に対応できるという考えに基づいて、潜在的な解決策を提供する。 本研究では,FPGA上に展開される超低レイテンシかつ低消費電力のニューラルネットワークに対して,重み付きおよびアクティベーション毎の精度を自動的に調整する,革新的な量子化対応トレーニング手法であるHigh Granularity Quantization (HGQ)を提案する。 我々は,HGQが既存の手法をかなり上回り,最大20倍のリソース削減,5倍のレイテンシ向上を達成できることを示した。

Model size and inference speed at deployment time, are major challenges in many deep learning applications. A promising strategy to overcome these challenges is quantization. However, a straightforward uniform quantization to very low precision can result in significant accuracy loss. Mixed-precision quantization, based on the idea that certain parts of the network can accommodate lower precision without compromising performance compared to other parts, offers a potential solution. In this work, we present High Granularity Quantization (HGQ), an innovative quantization-aware training method designed to fine-tune the per-weight and per-activation precision in an automatic way for ultra-low latency and low power neural networks which are to be deployed on FPGAs. We demonstrate that HGQ can outperform existing methods by a substantial margin, achieving resource reduction by up to a factor of 20 and latency improvement by a factor of 5 while preserving accuracy.
翻訳日:2024-05-02 15:07:37 公開日:2024-05-01
# 作曲の学習: 構成性の導入によるオブジェクト中心学習の改善

Learning to Compose: Improving Object Centric Learning by Injecting Compositionality ( http://arxiv.org/abs/2405.00646v1 )

ライセンス: Link先を確認
Whie Jung, Jaehoon Yoo, Sungjin Ahn, Seunghoon Hong, (参考訳) 構成表現の学習は、柔軟な体系的な一般化を可能にし、複雑な視覚的推論をサポートするため、オブジェクト指向学習の重要な側面である。 しかし、既存のアプローチのほとんどは自動符号化の目的に依存しており、構成性はエンコーダのアーキテクチャやアルゴリズムのバイアスによって暗黙的に課される。 自動符号化の目的と学習構成性のミスアライメントは、しばしば意味のあるオブジェクトの表現を捉えるのに失敗する。 本研究では,表現の合成性を明確に促進する新しい目的を提案する。 提案手法は,既存のオブジェクト中心学習フレームワーク(例えば,スロットアテンション)に基づいて,合成データの可能性の最大化により,2つの画像からのオブジェクト表現の任意の混合が有効であるべき制約を付加する。 既存のフレームワークに私たちの目標を組み込むことで、目標中心の学習を継続的に改善し、アーキテクチャの選択に対する堅牢性を高めることを実証する。

Learning compositional representation is a key aspect of object-centric learning as it enables flexible systematic generalization and supports complex visual reasoning. However, most of the existing approaches rely on auto-encoding objective, while the compositionality is implicitly imposed by the architectural or algorithmic bias in the encoder. This misalignment between auto-encoding objective and learning compositionality often results in failure of capturing meaningful object representations. In this study, we propose a novel objective that explicitly encourages compositionality of the representations. Built upon the existing object-centric learning framework (e.g., slot attention), our method incorporates additional constraints that an arbitrary mixture of object representations from two images should be valid by maximizing the likelihood of the composite data. We demonstrate that incorporating our objective to the existing framework consistently improves the objective-centric learning and enhances the robustness to the architectural choices.
翻訳日:2024-05-02 15:07:37 公開日:2024-05-01
# 機械学習と分子ドッキングに基づくEGFR, HER2, Estrogen, Progesterone, NF-kB受容体に対するBindingDBデータベースリガンドのスクリーニング

Screening of BindingDB database ligands against EGFR, HER2, Estrogen, Progesterone and NF-kB receptors based on machine learning and molecular docking ( http://arxiv.org/abs/2405.00647v1 )

ライセンス: Link先を確認
Parham Rezaee, Shahab Rezaee, Malik Maaza, Seyed Shahriar Arab, (参考訳) 世界で2番目に多いがんである乳癌は、新しい治療法の探索を必要とする。 乳癌の4つのサブグループ「ホルモン受容体陽性・HER2陰性・ホルモン受容体陽性・HER2陽性・ホルモン受容体陰性・HER2陰性」をターゲットにするためには、EGFR、HER2、ER、NF-kB、PRなどの特定の標的を阻害することが重要である。 本研究では,二項分類と多項分類の様々な手法について検討した。 GA-SVM-SVM:GA-SVM-SVMモデルは精度0.74、F1スコア0.73、AUC0.94で選択された。 このモデルでは,BindingDBデータベースから,EGFR+HER2,ER,NF-kB,PRの各クラスに対して,アクティブ/非アクティブおよびターゲット予測において90%以上の精度で4454,803,438,378のリガンドを同定した。 選択したリガンドに基づいて、ターゲットに基づいて異なるリガンドを分類するデンドログラムを作成しました。 このデンドログラムは、様々な治療対象のための化学空間の探索を容易にすることを目的としている。 分子ドッキングによるさらなる研究のために, 活性率の90%を超えるリガンドと正しい標的選択確率を選択した。 これらのリガンドのそれぞれの目標に対する結合エネルギー範囲は, -15~5kcal/molと計算された。 最後に, 医薬化学の一般規則と共通規則に基づいて, EGFR+HER2, ER, NF-kB, PRクラスにおいて, 高い優先度を持つ2, 3, 3, 8種類の新規配位子をそれぞれ選択した。

Breast cancer, the second most prevalent cancer among women worldwide, necessitates the exploration of novel therapeutic approaches. To target the four subgroups of breast cancer "hormone receptor-positive and HER2-negative, hormone receptor-positive and HER2-positive, hormone receptor-negative and HER2-positive, and hormone receptor-negative and HER2-negative" it is crucial to inhibit specific targets such as EGFR, HER2, ER, NF-kB, and PR. In this study, we evaluated various methods for binary and multiclass classification. Among them, the GA-SVM-SVM:GA-SVM-SVM model was selected with an accuracy of 0.74, an F1-score of 0.73, and an AUC of 0.94 for virtual screening of ligands from the BindingDB database. This model successfully identified 4454, 803, 438, and 378 ligands with over 90% precision in both active/inactive and target prediction for the classes of EGFR+HER2, ER, NF-kB, and PR, respectively, from the BindingDB database. Based on to the selected ligands, we created a dendrogram that categorizes different ligands based on their targets. This dendrogram aims to facilitate the exploration of chemical space for various therapeutic targets. Ligands that surpassed a 90% threshold in the product of activity probability and correct target selection probability were chosen for further investigation using molecular docking. The binding energy range for these ligands against their respective targets was calculated to be between -15 and -5 kcal/mol. Finally, based on general and common rules in medicinal chemistry, we selected 2, 3, 3, and 8 new ligands with high priority for further studies in the EGFR+HER2, ER, NF-kB, and PR classes, respectively.
翻訳日:2024-05-02 14:57:49 公開日:2024-05-01
# HalluVault: 大規模言語モデルにおけるFact-Conflicting Hallucinationを検出するための新しいロジックプログラミング支援メタモルフィックテストフレームワーク

HalluVault: A Novel Logic Programming-aided Metamorphic Testing Framework for Detecting Fact-Conflicting Hallucinations in Large Language Models ( http://arxiv.org/abs/2405.00648v1 )

ライセンス: Link先を確認
Ningke Li, Yuekang Li, Yi Liu, Ling Shi, Kailong Wang, Haoyu Wang, (参考訳) 大規模言語モデル(LLM)は言語処理の状況を変えてきたが、セキュリティ、プライバシ、そして一見整合的であるように見えるが事実的に不正確なアウトプット(幻覚と呼ばれる)の生成という重要な課題に苦戦している。 これらの課題のうち、特に重要な問題はFact-Conflicting Hallucination (FCH)であり、LLMは確立された事実と直接矛盾するコンテンツを生成する。 第一に、ベンチマークデータセットの構築と更新を自動化することは、現在のメソッドは、さまざまなFCHシナリオをカバーしていない静的ベンチマークに依存しているため、難しい。 第二に、LLM出力の推論過程の検証は本質的に複雑であり、特に複雑な論理的関係が関係している。 これらの障害に対処するために、我々は、FCH(Fact-Conflicting Hallucinations)の検出のためのメタモルフィックテストを強化するために、論理プログラミングを活用する革新的なアプローチを提案する。 本手法は,ウィキペディアなどの情報源からのデータを収集し,論理的推論を用いて拡張し,多様なテストケースを作成し,構造化されたプロンプトを通してLCMを評価し,セマンティック・アウェア・アセスメント・メカニズムを用いてそれらのコヒーレンスを検証する。 テストケースを生成し,9つの領域にまたがる6種類のLLMに対して幻覚を検知し,24.7%から59.8%の幻覚率を示す。 主要な観察は、LLMが、特に時間的概念、分配外知識の扱い、論理的推論能力の欠如に直面することを示唆している。 その結果,幻覚の誘発と同定の両面で,我々のツールが生成した論理ベースのテストケースの有効性を裏付ける結果となった。 これらの知見は, LLM幻覚の発見と対処に, コミュニティ内の協力的努力が不可欠であることを示すものである。

Large language models (LLMs) have transformed the landscape of language processing, yet struggle with significant challenges in terms of security, privacy, and the generation of seemingly coherent but factually inaccurate outputs, commonly referred to as hallucinations. Among these challenges, one particularly pressing issue is Fact-Conflicting Hallucination (FCH), where LLMs generate content that directly contradicts established facts. Tackling FCH poses a formidable task due to two primary obstacles: Firstly, automating the construction and updating of benchmark datasets is challenging, as current methods rely on static benchmarks that don't cover the diverse range of FCH scenarios. Secondly, validating LLM outputs' reasoning process is inherently complex, especially with intricate logical relations involved. In addressing these obstacles, we propose an innovative approach leveraging logic programming to enhance metamorphic testing for detecting Fact-Conflicting Hallucinations (FCH). Our method gathers data from sources like Wikipedia, expands it with logical reasoning to create diverse test cases, assesses LLMs through structured prompts, and validates their coherence using semantic-aware assessment mechanisms. Our method generates test cases and detects hallucinations across six different LLMs spanning nine domains, revealing hallucination rates ranging from 24.7% to 59.8%. Key observations indicate that LLMs encounter challenges, particularly with temporal concepts, handling out-of-distribution knowledge, and exhibiting deficiencies in logical reasoning capabilities. The outcomes underscore the efficacy of logic-based test cases generated by our tool in both triggering and identifying hallucinations. These findings underscore the imperative for ongoing collaborative endeavors within the community to detect and address LLM hallucinations.
翻訳日:2024-05-02 14:57:49 公開日:2024-05-01
# 塩分濃度:バイオメトリック検出モデルによる塩分濃度に基づくトレーニングの最適化

Grains of Saliency: Optimizing Saliency-based Training of Biometric Attack Detection Models ( http://arxiv.org/abs/2405.00650v1 )

ライセンス: Link先を確認
Colton R. Crum, Samuel Webster, Adam Czajka, (参考訳) モデルトレーニングに人間の知覚知能を組み込むことにより、プレゼンテーションアタック検出(PAD)や合成サンプルの検出など、いくつかの難しいバイオメトリックタスクにおけるモデルの一般化能力を高めることが示されている。 最初の収集フェーズの後、人間の視覚的サリエンシ(例えば、視線追跡データ、手書きアノテーション)は、注意機構、強化されたトレーニングサンプル、または損失関数の人間の知覚関連コンポーネントを介してモデルトレーニングに統合することができる。 彼らの成功にもかかわらず、しかし一見無視されているように思われるが、サリエンシに基づくトレーニングの側面は、人間のサリエンシの全利益とコレクションのコストのバランスを見つけるのに必要なサリエンシの粒度のレベル(例えば、バウンディングボックス、単一のサリエンシマップ、または複数の主題から集約されたサリエンシマップ)である。 そこで本研究では,PADと合成顔検出の一般化能力の向上を,複数の異なるCNNにまたがって,単純かつ効果的にサリエンス後処理技術を用いて実現できることを実証する。

Incorporating human-perceptual intelligence into model training has shown to increase the generalization capability of models in several difficult biometric tasks, such as presentation attack detection (PAD) and detection of synthetic samples. After the initial collection phase, human visual saliency (e.g., eye-tracking data, or handwritten annotations) can be integrated into model training through attention mechanisms, augmented training samples, or through human perception-related components of loss functions. Despite their successes, a vital, but seemingly neglected, aspect of any saliency-based training is the level of salience granularity (e.g., bounding boxes, single saliency maps, or saliency aggregated from multiple subjects) necessary to find a balance between reaping the full benefits of human saliency and the cost of its collection. In this paper, we explore several different levels of salience granularity and demonstrate that increased generalization capabilities of PAD and synthetic face detection can be achieved by using simple yet effective saliency post-processing techniques across several different CNNs.
翻訳日:2024-05-02 14:57:49 公開日:2024-05-01
# 線形単純化されたQAOAパラメータと転送可能性

Linearly simplified QAOA parameters and transferability ( http://arxiv.org/abs/2405.00655v1 )

ライセンス: Link先を確認
Ryo Sakai, Hiromichi Matsuyama, Wai-Hong Tam, Yu Yamashiro, Keisuke Fujii, (参考訳) 量子近似最適化アルゴリズム(QAOA)は、量子コンピュータを用いて組合せ最適化問題を解決する方法を提供する。 QAOA回路は、コストハミルトン演算子と状態混合演算子の時間発展演算子で構成され、各演算子に対する組込み変動パラメータを、コスト関数の期待値が最小となるように調整する。 変動パラメータの最適化は古典的デバイス上で行われ、コスト関数は量子の意味で測定される。 古典的最適化を容易にするために、最適/初期パラメータの意思決定戦略や、インスタンス間の類似性を抽出するいくつかの以前の研究がある。 本研究では,回路の深さとともに線形形状をとる簡易QAOAパラメータについて検討する。 このような単純化は、量子アニールの類似から示唆されるものであり、任意の数のQAOA層 p でパラメータ空間を 2p から 4 次元に劇的に減少させる。 さらに、パラメータ空間のコストランドスケープは、異なるインスタンスに対してある程度の安定性を持つ。 この事実は、与えられたインスタンスの最適パラメータセットが他のインスタンスに転送可能であることを示唆している。 本稿では,ランダムイジングモデルと最大カット問題のインスタンスに対して得られた数値結果について述べる。 ランダムに生成したソースおよび宛先インスタンスに対して線形化パラメータの転送可能性を示し、そのインスタンスの特徴への依存について検討した。

Quantum Approximate Optimization Algorithm (QAOA) provides a way to solve combinatorial optimization problems using quantum computers. QAOA circuits consist of time evolution operators by the cost Hamiltonian and of state mixing operators, and embedded variational parameter for each operator is tuned so that the expectation value of the cost function is minimized. The optimization of the variational parameters is taken place on classical devices while the cost function is measured in the sense of quantum. To facilitate the classical optimization, there are several previous works on making decision strategies for optimal/initial parameters and on extracting similarities among instances. In our current work, we consider simplified QAOA parameters that take linear forms along with the depth in the circuit. Such a simplification, which would be suggested from an analogy to quantum annealing, leads to a drastic reduction of the parameter space from 2p to 4 dimensions with the any number of QAOA layers p. In addition, cost landscapes in the reduced parameter space have some stability on differing instances. This fact suggests that an optimal parameter set for a given instance can be transferred to other instances. In this paper we present some numerical results that are obtained for instances of the random Ising model and of the max-cut problem. The transferability of linearized parameters is demonstrated for randomly generated source and destination instances, and its dependence on features of the instances are investigated.
翻訳日:2024-05-02 14:57:49 公開日:2024-05-01
# RST-LoRA:Long Document Abstractive Summarizationのための談話対応低ランク適応

RST-LoRA: A Discourse-Aware Low-Rank Adaptation for Long Document Abstractive Summarization ( http://arxiv.org/abs/2405.00657v1 )

ライセンス: Link先を確認
Dongqi Pu, Vera Demberg, (参考訳) 長い文書要約のためには、文章のキー内容と文間の重要度の違いを識別するために、談話構造が重要である。 残念ながら、長い文書要約のためのパラメータ効率のよい微調整戦略への修辞構造理論(RST)の統合は未解明のままである。 そこで本稿では, RST-LoRA モデルに RST を明示的に組み込むため, RST-LoRA を4種類提案する。 我々の経験的評価は、修辞関係の型と不確かさを取り入れることで、要約タスクにおけるLoRAの性能を相補的に向上できることを示した。 さらに,バニラLORAとフルパラメータ微調整モデルよりも優れた性能を示し,複数の自動評価や人体評価で確認され,従来の最先端手法よりも優れていた。

For long document summarization, discourse structure is important to discern the key content of the text and the differences in importance level between sentences. Unfortunately, the integration of rhetorical structure theory (RST) into parameter-efficient fine-tuning strategies for long document summarization remains unexplored. Therefore, this paper introduces RST-LoRA and proposes four RST-aware variants to explicitly incorporate RST into the LoRA model. Our empirical evaluation demonstrates that incorporating the type and uncertainty of rhetorical relations can complementarily enhance the performance of LoRA in summarization tasks. Furthermore, the best-performing variant we introduced outperforms the vanilla LoRA and full-parameter fine-tuning models, as confirmed by multiple automatic and human evaluations, and even surpasses previous state-of-the-art methods.
翻訳日:2024-05-02 14:57:49 公開日:2024-05-01
# NLU-STR at SemEval-2024 Task 1:Generative-based Augmentation and Encoder-based Scoring for Semantic Textual Relatedness

NLU-STR at SemEval-2024 Task 1: Generative-based Augmentation and Encoder-based Scoring for Semantic Textual Relatedness ( http://arxiv.org/abs/2405.00659v1 )

ライセンス: Link先を確認
Sanad Malaysha, Mustafa Jarrar, Mohammed Khalilia, (参考訳) 意味的テキスト関連性(Semantic textual relatedness)は、意味的類似性のより広い概念である。 2つのテキストが類似の意味や話題を伝達する程度を測定したり、関連する概念や文脈を共有する。 この関連性の概念は、文書のクラスタリングや要約など、様々なアプリケーションに適用できる。 SemEval-2024の共有タスクであるSemRel-2024は、アラビア語を含む14の言語と方言のデータセットを提供することで、意味的関連性タスクのギャップを減らすことを目的としている。 本稿では,トラックA(アルジェリア方言とモロッコ方言)とトラックB(現代標準アラビア語)への参加について報告する。 BERTベースのモデルは、教師なしトラック(A)における回帰スコア(Regress score)のために強化および微調整され、BERTベースのコサイン類似性は教師なしトラック(B)に使用される。 スピアマン相関スコア0.49のSemRel-2024で1位となった。 モロッコでは5位、アルジェリアでは12位、スコアは0.83と0.53だった。

Semantic textual relatedness is a broader concept of semantic similarity. It measures the extent to which two chunks of text convey similar meaning or topics, or share related concepts or contexts. This notion of relatedness can be applied in various applications, such as document clustering and summarizing. SemRel-2024, a shared task in SemEval-2024, aims at reducing the gap in the semantic relatedness task by providing datasets for fourteen languages and dialects including Arabic. This paper reports on our participation in Track A (Algerian and Moroccan dialects) and Track B (Modern Standard Arabic). A BERT-based model is augmented and fine-tuned for regression scoring in supervised track (A), while BERT-based cosine similarity is employed for unsupervised track (B). Our system ranked 1st in SemRel-2024 for MSA with a Spearman correlation score of 0.49. We ranked 5th for Moroccan and 12th for Algerian with scores of 0.83 and 0.53, respectively.
翻訳日:2024-05-02 14:57:49 公開日:2024-05-01
# 表現なし、信頼なし:PPOにおける表現・崩壊・信頼問題

No Representation, No Trust: Connecting Representation, Collapse, and Trust Issues in PPO ( http://arxiv.org/abs/2405.00662v1 )

ライセンス: Link先を確認
Skander Moalla, Andrea Miele, Razvan Pascanu, Caglar Gulcehre, (参考訳) 強化学習(Reinforcement Learning, RL)は、訓練中にエージェントが観察する報酬や報酬は、その変化政策に依存するため、本質的に非定常性と結びついている。 したがって、深部RLのネットワークは、新しい観測に適応し、新しい目標に適合できなければならない。 しかし、従来の研究では、非政治的なディープバリューベースの手法のネットワークは表現ランクの低下を示しており、しばしば学習の継続やパフォーマンスの崩壊と相関している。 この現象は一般に、非定常性下でのニューラルネットワーク学習によるものであるが、しばしば無期限に訓練できると考えられる政治政策最適化手法では見過ごされている。 本研究では,Atari および MuJoCo 環境におけるPPO の表現動態を実験的に研究し,PPO エージェントが特徴量劣化や可塑性の喪失にも影響していることを明らかにする。 これは強い非定常性によって悪化し、批評家のパフォーマンスに関わらず、最終的に俳優の演技が崩壊することを示します。 我々は,PPOにおける表現の崩壊,性能の崩壊,信頼領域の問題と,新しい補助的損失であるPFO(Proximal Feature Optimization)の関連を引き合いに出し,表現ダイナミクスの正規化がPPOエージェントの性能を向上させることを示す。

Reinforcement learning (RL) is inherently rife with non-stationarity since the states and rewards the agent observes during training depend on its changing policy. Therefore, networks in deep RL must be capable of adapting to new observations and fitting new targets. However, previous works have observed that networks in off-policy deep value-based methods exhibit a decrease in representation rank, often correlated with an inability to continue learning or a collapse in performance. Although this phenomenon has generally been attributed to neural network learning under non-stationarity, it has been overlooked in on-policy policy optimization methods which are often thought capable of training indefinitely. In this work, we empirically study representation dynamics in Proximal Policy Optimization (PPO) on the Atari and MuJoCo environments, revealing that PPO agents are also affected by feature rank deterioration and loss of plasticity. We show that this is aggravated with stronger non-stationarity, ultimately driving the actor's performance to collapse, regardless of the performance of the critic. We draw connections between representation collapse, performance collapse, and trust region issues in PPO, and present Proximal Feature Optimization (PFO), a novel auxiliary loss, that along with other interventions shows that regularizing the representation dynamics improves the performance of PPO agents.
翻訳日:2024-05-02 14:57:49 公開日:2024-05-01
# 2次元交互量子ウォークと真の単一粒子絡み合った状態によるデュアルメッセージングシステムによる量子暗号プロトコル

Quantum cryptographic protocols with dual messaging system via 2D alternate quantum walks and genuine single particle entangled states ( http://arxiv.org/abs/2405.00663v1 )

ライセンス: Link先を確認
Dinesh Kumar Panda, Colin Benjamin, (参考訳) 単一粒子絡み合った状態(SPES)は、より安全な量子情報の符号化と処理方法を提供する。 初期分離可能な状態から2次元の代替量子ウォーク設定によって生成されたSPESは、3方向または2方向の絡み合いがある。 このレターは、生成された真の3方向と非ローカルの2方向のSPESを暗号鍵として使用して、2つの異なるメッセージを同時に安全にエンコードできることを示している。 メッセージ暗号化復号手順を詳述し、インターセプト・アンド・リセンドやman-in-the-middleのような盗聴者攻撃に対する3方向と2方向のSPESベースの暗号プロトコルのレジリエンスを示す。 また、これらのプロトコルを単一光子を用いて実験的に実現し、自由度はOAM、パス、偏光である。 これらは、量子通信タスクのセキュリティを例外なく備えている。 生成されたSPESを使って2つの異なるメッセージを同時に符号化する能力は、提案した暗号プロトコルの汎用性と効率性を示している。 この能力は量子通信システムのスループットを大幅に改善する可能性がある。

Single-particle entangled states (SPES) can offer a more secure way of encoding and processing quantum information than their multi-particle counterparts. The SPES generated via a 2D alternate quantum-walk setup from initially separable states can be either 3-way or 2-way entangled. This letter shows that the generated genuine three-way and nonlocal two-way SPES can be used as cryptographic keys to securely encode two distinct messages simultaneously. We detail the message encryption-decryption steps and show the resilience of the 3-way and 2-way SPES-based cryptographic protocols against eavesdropper attacks like intercept-and-resend and man-in-the-middle. We also detail how these protocols can be experimentally realized using single photons, with the three degrees of freedom being OAM, path, and polarization. These have unparalleled security for quantum communication tasks. The ability to simultaneously encode two distinct messages using the generated SPES showcases the versatility and efficiency of the proposed cryptographic protocol. This capability could significantly improve the throughput of quantum communication systems.
翻訳日:2024-05-02 14:57:49 公開日:2024-05-01
# 大きめの編集サイズは常に改善されているか? - Llama-3を用いたモデル編集に関する実証的研究-

Is Bigger Edit Batch Size Always Better? -- An Empirical Study on Model Editing with Llama-3 ( http://arxiv.org/abs/2405.00664v1 )

ライセンス: Link先を確認
Junsang Yoon, Akshat Gupta, Gopala Anumanchipalli, (参考訳) 本研究では,最新の大言語モデルであるLlama-3に着目したターゲットモデル編集分析を行う。 ROME, MEMIT, EMMETという, 正確な層介入を目的とした一般的なモデル編集手法の有効性について検討する。 我々は、シーケンシャルな編集、バッチ編集、シーケンシャルなバッチ編集と呼ばれるハイブリッドなアプローチという3つの戦略にまたがる最大4096個の編集を含む評価によって、ターゲットとなる編集に最も効果的なレイヤを特定した。 以上の結果から,編集バッチサイズの増加は,編集回数の均等化のために,より小さな編集バッチを逐次使用するよりも,モデル性能を著しく低下させる可能性が示唆された。 これにより、逐次モデル編集はモデルの編集方法のスケーリングに重要な要素であり、今後の研究はバッチ編集とシーケンシャル編集を併用する手法に焦点を当てるべきである、と論じる。 この観察は,バッチサイズを拡大する現在のモデル編集手法の潜在的な限界を示唆するものであり,バッチサイズを最適化し,モデル編集性能を向上させるための今後の研究の道を開くことを願っている。

This study presents a targeted model editing analysis focused on the latest large language model, Llama-3. We explore the efficacy of popular model editing techniques - ROME, MEMIT, and EMMET, which are designed for precise layer interventions. We identify the most effective layers for targeted edits through an evaluation that encompasses up to 4096 edits across three distinct strategies: sequential editing, batch editing, and a hybrid approach we call as sequential-batch editing. Our findings indicate that increasing edit batch-sizes may degrade model performance more significantly than using smaller edit batches sequentially for equal number of edits. With this, we argue that sequential model editing is an important component for scaling model editing methods and future research should focus on methods that combine both batched and sequential editing. This observation suggests a potential limitation in current model editing methods which push towards bigger edit batch sizes, and we hope it paves way for future investigations into optimizing batch sizes and model editing performance.
翻訳日:2024-05-02 14:57:49 公開日:2024-05-01
# RGB$\leftrightarrow$X:材料・光対応拡散モデルを用いた画像分解と合成

RGB$\leftrightarrow$X: Image decomposition and synthesis using material- and lighting-aware diffusion models ( http://arxiv.org/abs/2405.00666v1 )

ライセンス: Link先を確認
Zheng Zeng, Valentin Deschaintre, Iliyan Georgiev, Yannick Hold-Geoffroy, Yiwei Hu, Fujun Luan, Ling-Qi Yan, Miloš Hašan, (参考訳) 現実的な前方レンダリング、ピクセルごとの逆レンダリング、生成的画像合成の3つの領域は、グラフィックと視覚の分離された非関連なサブフィールドのように見えるかもしれない。 しかし、近年の研究では拡散構造に基づく画素ごとの内在チャネル(アルベド、粗さ、金属性)の推定が改善していることが示されており、この問題を RGB$\rightarrow$X 問題と呼ぶ。 また,本研究では,固有チャネルであるX$\rightarrow$RGBの現実的な画像を合成する逆問題についても,拡散フレームワークで対処可能であることを示す。 内部シーンの画像領域に着目し,RGB$\rightarrow$Xの拡散モデルを導入し,照明を推定すると共に,(完全あるいは部分的な)内在チャネルからリアルなイメージを合成できる最初の拡散X$\rightarrow$RGBモデルを導入する。 我々のX$\rightarrow$RGBモデルは、従来のレンダリングモデルと生成モデルの間の中間点を探索する。 この柔軟性により、利用可能なチャネルが異なる異種トレーニングデータセットの混合の使用が可能になる。 複数の既存のデータセットを使用して、独自の合成および実データで拡張し、その結果、以前の作業よりも優れたシーン特性を抽出し、インテリアシーンの非常にリアルな画像を生成することができるモデルが得られる。

The three areas of realistic forward rendering, per-pixel inverse rendering, and generative image synthesis may seem like separate and unrelated sub-fields of graphics and vision. However, recent work has demonstrated improved estimation of per-pixel intrinsic channels (albedo, roughness, metallicity) based on a diffusion architecture; we call this the RGB$\rightarrow$X problem. We further show that the reverse problem of synthesizing realistic images given intrinsic channels, X$\rightarrow$RGB, can also be addressed in a diffusion framework. Focusing on the image domain of interior scenes, we introduce an improved diffusion model for RGB$\rightarrow$X, which also estimates lighting, as well as the first diffusion X$\rightarrow$RGB model capable of synthesizing realistic images from (full or partial) intrinsic channels. Our X$\rightarrow$RGB model explores a middle ground between traditional rendering and generative models: we can specify only certain appearance properties that should be followed, and give freedom to the model to hallucinate a plausible version of the rest. This flexibility makes it possible to use a mix of heterogeneous training datasets, which differ in the available channels. We use multiple existing datasets and extend them with our own synthetic and real data, resulting in a model capable of extracting scene properties better than previous work and of generating highly realistic images of interior scenes.
翻訳日:2024-05-02 14:57:49 公開日:2024-05-01
# 高ダイナミックレンジディスプレイにおける画像品質評価のための事前学習ネットワークの適用

Adapting Pretrained Networks for Image Quality Assessment on High Dynamic Range Displays ( http://arxiv.org/abs/2405.00670v1 )

ライセンス: Link先を確認
Andrei Chubarau, Hyunjin Yoo, Tara Akhavan, James Clark, (参考訳) PSNRやSSIMのような従来の画像品質指標(IQM)は、知覚的に均一なガンマ符号化されたピクセル値のために設計されており、知覚的に一様でない線形高ダイナミックレンジ(HDR)色には直接適用できない。 同様に、利用可能なデータセットのほとんどは標準ダイナミックレンジ(SDR)画像からなり、標準条件とおそらく制御不能な観測条件で収集される。 一般的なトレーニング済みニューラルネットワークもSDR入力を意図しており、HDRコンテンツへの直接適用を制限している。 一方、HDRデータが少ないため、スクラッチからHDRモデルをトレーニングすることは困難である。 本研究では,HDRデータに基づく画像品質評価(IQA)のための深層学習モデル学習のための,より効果的なアプローチについて検討する。 我々は、SDRデータ(ソース・ドメイン)で事前訓練されたネットワークを活用し、これらのモデルをHDR(ターゲット・ドメイン)に再ターゲットし、追加の微調整とドメイン適応を行う。 提案手法を利用可能なHDR IQAデータセット上で検証し、組み合わせたレシピで訓練したモデルが以前のベースラインより優れ、より高速に収束し、HDR入力に確実に一般化できることを実証した。

Conventional image quality metrics (IQMs), such as PSNR and SSIM, are designed for perceptually uniform gamma-encoded pixel values and cannot be directly applied to perceptually non-uniform linear high-dynamic-range (HDR) colors. Similarly, most of the available datasets consist of standard-dynamic-range (SDR) images collected in standard and possibly uncontrolled viewing conditions. Popular pre-trained neural networks are likewise intended for SDR inputs, restricting their direct application to HDR content. On the other hand, training HDR models from scratch is challenging due to limited available HDR data. In this work, we explore more effective approaches for training deep learning-based models for image quality assessment (IQA) on HDR data. We leverage networks pre-trained on SDR data (source domain) and re-target these models to HDR (target domain) with additional fine-tuning and domain adaptation. We validate our methods on the available HDR IQA datasets, demonstrating that models trained with our combined recipe outperform previous baselines, converge much quicker, and reliably generalize to HDR inputs.
翻訳日:2024-05-02 14:57:49 公開日:2024-05-01
# TexSliders: CLIP空間での拡散ベースのテクスチャ編集

TexSliders: Diffusion-Based Texture Editing in CLIP Space ( http://arxiv.org/abs/2405.00672v1 )

ライセンス: Link先を確認
Julia Guerrero-Viu, Milos Hasan, Arthur Roullier, Midhun Harikumar, Yiwei Hu, Paul Guerrero, Diego Gutierrez, Belen Masia, Valentin Deschaintre, (参考訳) 生成モデルは、自然言語を用いた直感的な画像生成と操作を可能にした。 特に拡散モデルは、最近、自然画像編集において顕著な結果を示した。 本研究では,テクスチャの編集に拡散技術を適用することを提案する。 既存の編集手法を解析し,テクスチャに対して直接適用できないことを示す。 そこで本研究では,CLIP画像の埋め込みを制御して拡散生成を条件付ける手法を提案する。 簡単なテキストプロンプト(例えば、"aged wood"から"new wood")を使って編集方向を定義し、これらをCLIP画像埋め込み空間に事前にテクスチャを用いてマッピングする。 これらの方向をCLIPサブスペースに投影し、絡み合ったテクスチャ属性から生じるアイデンティティの変動を最小限に抑える。 編集パイプラインは,自然言語プロンプトのみを用いた任意のスライダの作成を容易にする。

Generative models have enabled intuitive image creation and manipulation using natural language. In particular, diffusion models have recently shown remarkable results for natural image editing. In this work, we propose to apply diffusion techniques to edit textures, a specific class of images that are an essential part of 3D content creation pipelines. We analyze existing editing methods and show that they are not directly applicable to textures, since their common underlying approach, manipulating attention maps, is unsuitable for the texture domain. To address this, we propose a novel approach that instead manipulates CLIP image embeddings to condition the diffusion generation. We define editing directions using simple text prompts (e.g., "aged wood" to "new wood") and map these to CLIP image embedding space using a texture prior, with a sampling-based approach that gives us identity-preserving directions in CLIP space. To further improve identity preservation, we project these directions to a CLIP subspace that minimizes identity variations resulting from entangled texture attributes. Our editing pipeline facilitates the creation of arbitrary sliders using natural language prompts only, with no ground-truth annotated data necessary.
翻訳日:2024-05-02 14:57:49 公開日:2024-05-01
# 行列幾何学的手段の量子アルゴリズム

Quantum algorithms for matrix geometric means ( http://arxiv.org/abs/2405.00673v1 )

ライセンス: Link先を確認
Nana Liu, Qisheng Wang, Mark M. Wilde, Zhicheng Zhang, (参考訳) 行列幾何学とは、2つの正定値行列の間を、ある方程式の非線形系の解として、リーマン幾何学の測地線に沿った点として、そしてある最適化問題の解として、等しく定義することができる。 この多様性はすでに、異なるドメイン間のブリッジとして機能するだけでなく、様々なアプリケーションの可能性を示している。 ここでは、標準行列幾何学平均と、重み付き行列幾何学平均と呼ばれる一般化を組み込む量子ユニタリ作用素を効率的に作成するために、新しい量子サブルーチンを考案する。 これは、機械学習、最適制御、推定、フィルタリングに現れる方程式の非線形系の重要なクラスである代数的リカティ方程式の解の構築を可能にする。 これらのサブルーチンを用いて、量子幾何平均距離学習と呼ばれる新しい量子学習アルゴリズムを提示する。 これは、古典的および量子的問題の両方に対して、弱教師付き極限における最適距離測度と分類問題の解法と異常検出に有効である。 また, この手法を非線形方程式のp^階数系に一般化する方法を示す。 行列幾何学的な手段のためのこれらの量子サブルーチンは、他の量子情報の領域でも有用である。 例えば、幾何学的レニイ相対エントロピーとウルマン忠実度をFuchs-Caves観測により推定する方法を示す。 特に、Uhlmann と Matsumoto の忠実度を推定するための量子アルゴリズムは、精度に最適に依存する。 最後に,行列幾何学的手法に基づくBQP完全問題を提案する。

Matrix geometric means between two positive definite matrices can be defined equivalently from distinct perspectives - as solutions to certain nonlinear systems of equations, as points along geodesics in Riemannian geometry, and as solutions to certain optimisation problems. This diversity already suggests the potential for varied applications, as well as acting as a bridge between different domains. Here we devise new quantum subroutines to efficiently prepare quantum unitary operators that embed the standard matrix geometric mean and its generalisations called the weighted matrix geometric mean. This enables the construction of solutions to the algebraic Riccati equation, which is an important class of nonlinear systems of equations that appears in machine learning, optimal control, estimation, and filtering. Using these subroutines, we present a new class of quantum learning algorithms called quantum geometric mean metric learning. This has applications in efficiently finding the best distance measure and solving classification problems in the weakly supervised limit and for anomaly detection, for both classical and quantum problems. We also show how our method can be generalised to a particular p^th-order system of nonlinear equations. These quantum subroutines for matrix geometric means are also useful in other areas of quantum information. For example, we show how to use them in the estimation of geometric Renyi relative entropies and the Uhlmann fidelity by means of the Fuchs-Caves observable. In particular, our quantum algorithms for estimating the Uhlmann and Matsumoto fidelities have optimal dependence on the precision. Finally, we provide a BQP-complete problem based on matrix geometric means that can be solved by our subroutines, thus characterising their computational capability.
翻訳日:2024-05-02 14:57:49 公開日:2024-05-01
# 言語モデルアライメントのためのセルフプレイ選好最適化

Self-Play Preference Optimization for Language Model Alignment ( http://arxiv.org/abs/2405.00675v1 )

ライセンス: Link先を確認
Yue Wu, Zhiqing Sun, Huizhuo Yuan, Kaixuan Ji, Yiming Yang, Quanquan Gu, (参考訳) 従来の人間フィードバックからの強化学習(RLHF)アプローチは、Bradley-Terryモデルのようなパラメトリックモデルに依存している。 近年の進歩は、好みの確率で直接作業することで、人間の好みをより正確に反映し、より柔軟で正確な言語モデルアライメントを可能にすることを示唆している。 本稿では,ナッシュ均衡政策の同定を目的とした,言語モデルアライメントのための自己遊び型手法を提案する。 提案手法は,SPPO (textit{Self-Play Preference Optimization}) と呼ばれ,反復的なポリシー更新を通じてナッシュ均衡を近似し,理論的収束を保証する。 提案手法は, 直接選好最適化 (DPO) や同一性選好最適化 (IPO) などの対称的ペアワイズ損失によって, 容易に達成できないような, 選択された応答のログ類似度を効果的に向上し, 拒否された応答のログ類似度を減少させることができる。 実験では,UltraFeedbackデータセットからの60kプロンプトのみを使用し,0.4Bパラメータのみを事前学習した選好モデルPairRMを利用することで,AlpacaEval 2.0のGPT-4-Turboに対して28.53%の精度で精度の高いMistral-7B-Instruct-v0.2からモデルを得ることができた。 また、MT-BenchとOpen LLM Leaderboardで(興味深い)DPOとIPOを上回っている。 特に、SPPOの強い性能は、GPT-4や他の強力な言語モデルから追加の外部監督(例えば、応答、嗜好など)なしで達成される。

Traditional reinforcement learning from human feedback (RLHF) approaches relying on parametric models like the Bradley-Terry model fall short in capturing the intransitivity and irrationality in human preferences. Recent advancements suggest that directly working with preference probabilities can yield a more accurate reflection of human preferences, enabling more flexible and accurate language model alignment. In this paper, we propose a self-play-based method for language model alignment, which treats the problem as a constant-sum two-player game aimed at identifying the Nash equilibrium policy. Our approach, dubbed \textit{Self-Play Preference Optimization} (SPPO), approximates the Nash equilibrium through iterative policy updates and enjoys theoretical convergence guarantee. Our method can effectively increase the log-likelihood of the chosen response and decrease that of the rejected response, which cannot be trivially achieved by symmetric pairwise loss such as Direct Preference Optimization (DPO) and Identity Preference Optimization (IPO). In our experiments, using only 60k prompts (without responses) from the UltraFeedback dataset and without any prompt augmentation, by leveraging a pre-trained preference model PairRM with only 0.4B parameters, SPPO can obtain a model from fine-tuning Mistral-7B-Instruct-v0.2 that achieves the state-of-the-art length-controlled win-rate of 28.53% against GPT-4-Turbo on AlpacaEval 2.0. It also outperforms the (iterative) DPO and IPO on MT-Bench and the Open LLM Leaderboard. Notably, the strong performance of SPPO is achieved without additional external supervision (e.g., responses, preferences, etc.) from GPT-4 or other stronger language models.
翻訳日:2024-05-02 14:57:49 公開日:2024-05-01
# ニューラル補償を用いた分光励起ガウス場

Spectrally Pruned Gaussian Fields with Neural Compensation ( http://arxiv.org/abs/2405.00676v1 )

ライセンス: Link先を確認
Runyi Yang, Zhenxin Zhu, Zhou Jiang, Baijun Ye, Xiaoxue Chen, Yifei Zhang, Yuantao Chen, Jian Zhao, Hao Zhao, (参考訳) 近年,新しい3D表現として,高速なレンダリング速度と高速なレンダリング品質に注目が集まっている。 しかし、これは高いメモリ消費、例えば、よく訓練されたガウスのフィールドは300万のガウスのプリミティブと700MB以上のメモリを使用する可能性がある。 このメモリフットプリントの高さは、プリミティブ間の関係が考慮されていないことによるものです。 本稿では,スペクトルプルーニングとニューラル補償を併用したメモリ効率のよいガウス場SUNDAEを提案する。 一方、ガウスプリミティブの集合上にグラフを構築し、それらの関係をモデル化し、スペクトルダウンサンプリングモジュールを設計し、プリミティブを励起し、所望の信号を保存する。 一方, 刈り取られたガウシアンの品質損失を補うために, 軽量ニューラルネットワークヘッドを用いて, 切削した特徴を混合し, プリミティブ間の重み関係を捕捉しながら, 効果的に品質損失を補償する。 本研究では,SUNDAEの性能を広範囲に示す。 例えば、SUNDAEは104MBのメモリで145FPSで26.80PSNRを達成でき、一方、Nap-NeRF360データセットで160FPSで25.60PSNRを達成する。 コードはhttps://runyiyang.github.io/projects/SUNDAE/で公開されている。

Recently, 3D Gaussian Splatting, as a novel 3D representation, has garnered attention for its fast rendering speed and high rendering quality. However, this comes with high memory consumption, e.g., a well-trained Gaussian field may utilize three million Gaussian primitives and over 700 MB of memory. We credit this high memory footprint to the lack of consideration for the relationship between primitives. In this paper, we propose a memory-efficient Gaussian field named SUNDAE with spectral pruning and neural compensation. On one hand, we construct a graph on the set of Gaussian primitives to model their relationship and design a spectral down-sampling module to prune out primitives while preserving desired signals. On the other hand, to compensate for the quality loss of pruning Gaussians, we exploit a lightweight neural network head to mix splatted features, which effectively compensates for quality losses while capturing the relationship between primitives in its weights. We demonstrate the performance of SUNDAE with extensive results. For example, SUNDAE can achieve 26.80 PSNR at 145 FPS using 104 MB memory while the vanilla Gaussian splatting algorithm achieves 25.60 PSNR at 160 FPS using 523 MB memory, on the Mip-NeRF360 dataset. Codes are publicly available at https://runyiyang.github.io/projects/SUNDAE/.
翻訳日:2024-05-02 14:57:49 公開日:2024-05-01
# ClustML:人間ラベルグループで学習した散乱体におけるクラスターパターンの複雑度の測定

ClustML: A Measure of Cluster Pattern Complexity in Scatterplots Learnt from Human-labeled Groupings ( http://arxiv.org/abs/2106.00599v4 )

ライセンス: Link先を確認
Mostafa M. Abbas, Ehsan Ullah, Abdelkader Baggag, Halima Bensmail, Michael Sedlmair, Michaël Aupetit, (参考訳) ビジュアル品質測定(VQM)は、視覚化のパターンを自動的に検出し、定量化することにより、アナリストを支援するように設計されている。 ClustMLと呼ばれる,これまでに収集した被験者の判断に基づいて学習した,散在する人物の視覚的グルーピングパターンのための新しいVQMを提案する。 本モデルでは,ガウス混合モデルのパラメトリック空間における散乱プロットを符号化し,人間の判断データに基づいて学習した分類器を用いて,グループ化パターンの知覚的複雑さを推定する。 初期混合成分数と最終結合基数。 既存のVQMを改良し、まずは2ガウスのクラスタパターンに対する人間の判断をより良く推定し、次に、スパッタプロットにおける一般的なクラスタパターンのランク付け時に高い精度を与える。 我々は、ゲノムワイド・アソシエーション研究における親族データの解析にそれを用いており、専門家は大規模な散布体の視覚的分析に頼っている。 ベンチマークデータセットと新しいVQMを実用化し、さらなる改善を加えています。

Visual quality measures (VQMs) are designed to support analysts by automatically detecting and quantifying patterns in visualizations. We propose a new VQM for visual grouping patterns in scatterplots, called ClustML, which is trained on previously collected human subject judgments. Our model encodes scatterplots in the parametric space of a Gaussian Mixture Model and uses a classifier trained on human judgment data to estimate the perceptual complexity of grouping patterns. The numbers of initial mixture components and final combined groups. It improves on existing VQMs, first, by better estimating human judgments on two-Gaussian cluster patterns and, second, by giving higher accuracy when ranking general cluster patterns in scatterplots. We use it to analyze kinship data for genome-wide association studies, in which experts rely on the visual analysis of large sets of scatterplots. We make the benchmark datasets and the new VQM available for practical use and further improvements.
翻訳日:2024-05-02 11:09:15 公開日:2024-05-01
# nnU-Netの効率よいベイズ不確かさ推定

Efficient Bayesian Uncertainty Estimation for nnU-Net ( http://arxiv.org/abs/2212.06278v3 )

ライセンス: Link先を確認
Yidong Zhao, Changchun Yang, Artur Schweidtmann, Qian Tao, (参考訳) 自己構成のnnU-Netは、幅広い医療画像セグメンテーションの課題において、主要なパフォーマンスを達成している。 選択のモデルとして広く考えられており、医用画像セグメンテーションの強力なベースラインとなっている。 しかし、その異常な性能にもかかわらず、nnU-Netはその失敗の可能性を示すための不確実性の尺度を提供していない。 これは、データが不均一であり、nnU-Netが注意を払わずに失敗する、大規模なイメージセグメンテーションアプリケーションで問題となる可能性がある。 本研究では,医療画像分割におけるnnU-Netの不確実性を推定する新しい手法を提案する。 ベイズ不確実性推定のための重み空間の後方サンプリングに有効な手法を提案する。 モンテカルロ・ドロップアウトや平均場ベイズニューラルネットワークのような従来のベースライン手法とは異なり,提案手法は変動型アーキテクチャを必要とせず,元のnnU-Netアーキテクチャをそのまま維持し,優れた性能と使いやすさを維持する。 さらに,マルチモーダル後部モデルにより,元のnnU-Netよりもセグメンテーション性能を向上する。 心臓MRIのパブリックなACDCおよびM&Mデータセットに本手法を適用し,一連のベースライン法における不確実性評価の改善を実証した。 提案手法は,領域分割精度と品質管理の両面から,医用画像分割のためのnnU-Netをさらに強化する。

The self-configuring nnU-Net has achieved leading performance in a large range of medical image segmentation challenges. It is widely considered as the model of choice and a strong baseline for medical image segmentation. However, despite its extraordinary performance, nnU-Net does not supply a measure of uncertainty to indicate its possible failure. This can be problematic for large-scale image segmentation applications, where data are heterogeneous and nnU-Net may fail without notice. In this work, we introduce a novel method to estimate nnU-Net uncertainty for medical image segmentation. We propose a highly effective scheme for posterior sampling of weight space for Bayesian uncertainty estimation. Different from previous baseline methods such as Monte Carlo Dropout and mean-field Bayesian Neural Networks, our proposed method does not require a variational architecture and keeps the original nnU-Net architecture intact, thereby preserving its excellent performance and ease of use. Additionally, we boost the segmentation performance over the original nnU-Net via marginalizing multi-modal posterior models. We applied our method on the public ACDC and M&M datasets of cardiac MRI and demonstrated improved uncertainty estimation over a range of baseline methods. The proposed method further strengthens nnU-Net for medical image segmentation in terms of both segmentation accuracy and quality control.
翻訳日:2024-05-02 11:09:15 公開日:2024-05-01
# Imitate: 先進的な階層型ビジョンランゲージ事前トレーニング

IMITATE: Clinical Prior Guided Hierarchical Vision-Language Pre-training ( http://arxiv.org/abs/2310.07355v3 )

ライセンス: Link先を確認
Che Liu, Sibo Cheng, Miaojing Shi, Anand Shah, Wenjia Bai, Rossella Arcucci, (参考訳) VLP(Vision-Language Pre-Training)の分野では、臨床報告と関連する医療画像の両方からテキストや画像の特徴を抽出するための重要な取り組みがなされている。 しかし、既存のほとんどの手法は、臨床報告の固有の階層構造を活用する機会を見落としていた可能性があり、これは一般的に説明内容の「フィニング」と決定的な観察のための「印象」に分けられる。 このリッチで構造化されたフォーマットを利用する代わりに、現在の医療用VLPアプローチは、統一されたエンティティまたは断片化されたトークンへのレポートを単純化することが多い。 本研究は,医用レポートから階層的視覚言語アライメントを付加した構造情報を学習するために,Imitateという新規な臨床事前指導型VLPフレームワークを提案する。 このフレームワークは胸部X線(CXR)画像から多段階の視覚特徴を導出し、これらの特徴を階層的な医療報告に符号化された記述的および決定的テキストと別々に整列する。 さらに, 比較学習におけるサンプル相関の定式化において臨床先行知識を考慮に入れた, クロスモーダル学習において, 新たな臨床インフォームド・コントラッシブ・ロスが導入された。 提案したモデルであるIMITATEは、6つの異なるデータセットでベースラインのVLPメソッドより優れており、5つの医用画像下流タスクにまたがっている。 総合的な実験結果は、医報の階層構造を視覚言語アライメントに組み込むことの利点を浮き彫りにした。

In the field of medical Vision-Language Pre-training (VLP), significant efforts have been devoted to deriving text and image features from both clinical reports and associated medical images. However, most existing methods may have overlooked the opportunity in leveraging the inherent hierarchical structure of clinical reports, which are generally split into `findings' for descriptive content and `impressions' for conclusive observation. Instead of utilizing this rich, structured format, current medical VLP approaches often simplify the report into either a unified entity or fragmented tokens. In this work, we propose a novel clinical prior guided VLP framework named IMITATE to learn the structure information from medical reports with hierarchical vision-language alignment. The framework derives multi-level visual features from the chest X-ray (CXR) images and separately aligns these features with the descriptive and the conclusive text encoded in the hierarchical medical report. Furthermore, a new clinical-informed contrastive loss is introduced for cross-modal learning, which accounts for clinical prior knowledge in formulating sample correlations in contrastive learning. The proposed model, IMITATE, outperforms baseline VLP methods across six different datasets, spanning five medical imaging downstream tasks. Comprehensive experimental results highlight the advantages of integrating the hierarchical structure of medical reports for vision-language alignment.
翻訳日:2024-05-02 11:09:15 公開日:2024-05-01
# DressCode: テキストガイダンスからガーメントの自動縫製と生成

DressCode: Autoregressively Sewing and Generating Garments from Text Guidance ( http://arxiv.org/abs/2401.16465v3 )

ライセンス: Link先を確認
Kai He, Kaixin Yao, Qixuan Zhang, Lingjie Liu, Jingyi Yu, Lan Xu, (参考訳) アパレルの人間の外見における重要な役割は、デジタル人間の創造における衣服のデジタル化の重要性を浮き彫りにしている。 近年の3Dコンテンツ制作の進歩は、デジタル人間の創造にとって重要な要素である。 それでも、テキストガイダンスによる衣服生成はまだ初期段階にある。 DressCodeは、初心者向けデザインを民主化し、ファッションデザイン、バーチャルトライオン、デジタルヒューマン創造において大きな可能性を秘めている。 まず,GPT ベースのアーキテクチャである SewingGPT を導入し,テキスト条件の埋め込みとクロスアテンションを統合し,テキスト誘導による縫製パターンの生成を行う。 次に、トレーニング済みの安定拡散を調整し、タイルベースの衣服用物理レンダリング(PBR)テクスチャを生成します。 大規模言語モデルを活用することにより,本フレームワークは自然言語インタラクションによりCGフレンドリーな衣服を生成する。 また、パターン補完とテクスチャ編集を容易にし、ユーザフレンドリーなインタラクションを通じてデザインプロセスを合理化する。 このフレームワークは、クリエーターが自由にデザインを実験し、独自の要素を作品に組み込むことによって、イノベーションを促進する。 提案手法は,他の最先端手法と比較して総合的な評価と比較を行い,優れた品質と入力プロンプトとの整合性を示す。 ユーザスタディは、私たちの高品質なレンダリング結果をさらに検証し、実用性と本番環境での可能性を強調します。 私たちのプロジェクトページはhttps://IHe-KaiI.github.io/DressCode/。

Apparel's significant role in human appearance underscores the importance of garment digitalization for digital human creation. Recent advances in 3D content creation are pivotal for digital human creation. Nonetheless, garment generation from text guidance is still nascent. We introduce a text-driven 3D garment generation framework, DressCode, which aims to democratize design for novices and offer immense potential in fashion design, virtual try-on, and digital human creation. We first introduce SewingGPT, a GPT-based architecture integrating cross-attention with text-conditioned embedding to generate sewing patterns with text guidance. We then tailor a pre-trained Stable Diffusion to generate tile-based Physically-based Rendering (PBR) textures for the garments. By leveraging a large language model, our framework generates CG-friendly garments through natural language interaction. It also facilitates pattern completion and texture editing, streamlining the design process through user-friendly interaction. This framework fosters innovation by allowing creators to freely experiment with designs and incorporate unique elements into their work. With comprehensive evaluations and comparisons with other state-of-the-art methods, our method showcases superior quality and alignment with input prompts. User studies further validate our high-quality rendering results, highlighting its practical utility and potential in production settings. Our project page is https://IHe-KaiI.github.io/DressCode/.
翻訳日:2024-05-02 11:09:15 公開日:2024-05-01
# リラクサメトリーによる定量的心磁気共鳴画像再構成

Relaxometry Guided Quantitative Cardiac Magnetic Resonance Image Reconstruction ( http://arxiv.org/abs/2403.00549v3 )

ライセンス: Link先を確認
Yidong Zhao, Yi Zhang, Qian Tao, (参考訳) 深層学習に基づく手法は、MRI(MRI)再構成のための優れた性能を達成し、多くの臨床応用において高速イメージングを可能にしている。 従来の手法では、正規化項としてイメージを学習するために畳み込みネットワークを用いていた。 定量的MRIでは、核磁気共鳴緩和法(英語版)の物理モデルが知られており、画像再構成のための追加の事前知識を提供する。 しかし、従来の再構成ネットワークは、空間領域の事前知識の学習に限られており、事前の緩和法を無視している。 そこで本研究では,MRI物理の空間的事前学習のためのリラクソメトリガイド付き定量的MRI再構成フレームワークを提案する。 さらに,U-Netを用いたリカレント変分ネットワーク (RVN) と変分ネットワーク (VN) の2つの人気再構成バックボーンの性能評価を行った。 実験により,提案手法は定量的MRI再構成において高い有望な結果が得られることが示された。

Deep learning-based methods have achieved prestigious performance for magnetic resonance imaging (MRI) reconstruction, enabling fast imaging for many clinical applications. Previous methods employ convolutional networks to learn the image prior as the regularization term. In quantitative MRI, the physical model of nuclear magnetic resonance relaxometry is known, providing additional prior knowledge for image reconstruction. However, traditional reconstruction networks are limited to learning the spatial domain prior knowledge, ignoring the relaxometry prior. Therefore, we propose a relaxometry-guided quantitative MRI reconstruction framework to learn the spatial prior from data and the relaxometry prior from MRI physics. Additionally, we also evaluated the performance of two popular reconstruction backbones, namely, recurrent variational networks (RVN) and variational networks (VN) with U- Net. Experiments demonstrate that the proposed method achieves highly promising results in quantitative MRI reconstruction.
翻訳日:2024-05-02 11:09:15 公開日:2024-05-01
# QuanTemp: 事実チェックの数値クレームのための実世界のオープンドメインベンチマーク

QuanTemp: A real-world open-domain benchmark for fact-checking numerical claims ( http://arxiv.org/abs/2403.17169v3 )

ライセンス: Link先を確認
Venktesh V, Abhijit Anand, Avishek Anand, Vinay Setty, (参考訳) デジタル時代の偽情報に対処するために、自動事実チェックが大きな関心を集めている。 既存のシステムは主にウィキペディアの人工的な主張に焦点を当てており、注目すべき進歩は現実世界の主張にも向けられている。 本研究は,時間的,統計的,多様な側面を包含し,詳細なメタデータと漏洩のないエビデンス収集を含む,数値的クレームに特化した多分野データセットであるQuanTempをリリースする。 これは、複雑でしばしば正確な情報がない実世界の数値的主張を検証するという課題に対処し、主に合成的主張に焦点を当てた既存の研究には対処しない。 我々は,数値クレームの検証作業において,既存の解の限界を評価し,定量化する。 また,クレーム分解に基づく手法,数値理解に基づくモデル,および最良ベースラインが58.32のマクロF1を達成することを評価した。 このことは、QuanTempが数値クレーム検証のための挑戦的な評価セットであることを示している。

Automated fact checking has gained immense interest to tackle the growing misinformation in the digital era. Existing systems primarily focus on synthetic claims on Wikipedia, and noteworthy progress has also been made on real-world claims. In this work, we release QuanTemp, a diverse, multi-domain dataset focused exclusively on numerical claims, encompassing temporal, statistical and diverse aspects with fine-grained metadata and an evidence collection without leakage. This addresses the challenge of verifying real-world numerical claims, which are complex and often lack precise information, not addressed by existing works that mainly focus on synthetic claims. We evaluate and quantify the limitations of existing solutions for the task of verifying numerical claims. We also evaluate claim decomposition based methods, numerical understanding based models and our best baselines achieves a macro-F1 of 58.32. This demonstrates that QuanTemp serves as a challenging evaluation set for numerical claim verification.
翻訳日:2024-05-02 11:09:15 公開日:2024-05-01
# イマジナリースターク皮膚効果

Imaginary Stark Skin Effect ( http://arxiv.org/abs/2404.16774v2 )

ライセンス: Link先を確認
Heng Lin, Jinghui Pi, Yunyao Qi, Gui-Lu Long, (参考訳) 非エルミート皮膚効果(英: non-Hermitian skin effect, NHSE)は、非エルミート系において特異な現象である。 しかし、翻訳対称性のない系におけるNHSEの研究はほとんど未解明のままである。 ここでは,空間的に減少する損失率を有する1次元の損失格子上に,"imaginary Stark skin effect"(ISSE)と呼ばれる新しいNHSEのクラスを公表する。 このモデルのエネルギースペクトルはT字型の特徴を示し、左境界にほぼ半分の固有状態が局在している。 これらのスキンモードは、バルク領域内の単一の安定した指数減衰波として表される特異な挙動を示す。 本モデルでは, 転送行列法を用いてISSEの生成を解析する。 伝達行列の固有分解により、波動関数は2つの部分に分けられ、そのうちの1つはバルク内のスキンモードの挙動を支配している。 本研究は,翻訳対称性のないシステムにおけるNHSEに関する知見を提供し,一般の非エルミート系の理解に寄与する。

The non-Hermitian skin effect (NHSE) is a unique phenomenon in non-Hermitian systems. However, studies on NHSE in systems without translational symmetry remain largely unexplored. Here, we unveil a new class of NHSE, dubbed "imaginary Stark skin effect" (ISSE), in a one-dimensional lossy lattice with a spatially increasing loss rate. The energy spectrum of this model exhibits a T-shaped feature, with approximately half of the eigenstates localized at the left boundary. These skin modes exhibit peculiar behaviors, expressed as a single stable exponential decay wave within the bulk region. We use the transfer matrix method to analyze the formation of the ISSE in this model. According to the eigen-decomposition of the transfer matrix, the wave function is divided into two parts, one of which dominates the behavior of the skin modes in the bulk. Our findings provide insights into the NHSE in systems without translational symmetry and contribute to the understanding of non-Hermitian systems in general.
翻訳日:2024-05-02 11:09:15 公開日:2024-05-01
# クロスモーダル知識蒸留によるイベントカメラからの深度推定のための新しいスパイクトランスネットワーク

A Novel Spike Transformer Network for Depth Estimation from Event Cameras via Cross-modality Knowledge Distillation ( http://arxiv.org/abs/2404.17335v2 )

ライセンス: Link先を確認
Xin Zhang, Liangxiu Han, Tam Sobeih, Lianghao Han, Darren Dancey, (参考訳) 深度推定は複雑な環境、特に自律走行航法やロボット工学のような分野の解釈に不可欠である。 それでも、イベントカメラのデータから正確な深度を読み取ることは、まだまだ難しい課題だ。 イベントカメラは従来のデジタルカメラとは異なる動作をし、データを継続的にキャプチャし、時間、位置、光強度をエンコードする非同期バイナリスパイクを生成する。 しかし、イベントカメラのユニークなサンプリングメカニズムは、スパイクデータを処理するのに標準画像ベースアルゴリズムが不十分である。 これにより, スパイキングデータに固有の不規則性, 連続性, ノイズ, 空間的および時間的特性を複合したタスクであるイベントカメラに適したスパイク対応アルゴリズムの開発が必要となり, スパイクカメラデータから深度を推定するための純粋スパイク駆動スパイクトランスフォーマネットワークを提案する。 スパイキングニューラルネットワーク(SNN)の性能制限に対処するため,我々は,人工知能ニューラルネットワーク(ANN)の大規模ビジョン基盤モデル(DINOv2)からの知識を活用して,限られたデータによるSNNの性能向上を図る,新しい単一段階のクロスモーダルな知識伝達フレームワークを導入する。 合成データセットと実データセットの両方の実験結果は、既存のモデルよりも大幅に改善され、絶対相対誤差と平方相対誤差(ベンチマークモデルSpike-Tの49%と39.77%)が顕著に向上した。 提案モデルでは, 精度に加えて, 実用上の重要な要因である消費電力の削減も示している。

Depth estimation is crucial for interpreting complex environments, especially in areas such as autonomous vehicle navigation and robotics. Nonetheless, obtaining accurate depth readings from event camera data remains a formidable challenge. Event cameras operate differently from traditional digital cameras, continuously capturing data and generating asynchronous binary spikes that encode time, location, and light intensity. Yet, the unique sampling mechanisms of event cameras render standard image based algorithms inadequate for processing spike data. This necessitates the development of innovative, spike-aware algorithms tailored for event cameras, a task compounded by the irregularity, continuity, noise, and spatial and temporal characteristics inherent in spiking data.Harnessing the strong generalization capabilities of transformer neural networks for spatiotemporal data, we propose a purely spike-driven spike transformer network for depth estimation from spiking camera data. To address performance limitations with Spiking Neural Networks (SNN), we introduce a novel single-stage cross-modality knowledge transfer framework leveraging knowledge from a large vision foundational model of artificial neural networks (ANN) (DINOv2) to enhance the performance of SNNs with limited data. Our experimental results on both synthetic and real datasets show substantial improvements over existing models, with notable gains in Absolute Relative and Square Relative errors (49% and 39.77% improvements over the benchmark model Spike-T, respectively). Besides accuracy, the proposed model also demonstrates reduced power consumptions, a critical factor for practical applications.
翻訳日:2024-05-02 11:09:15 公開日:2024-05-01
# ランダム接続行列を用いた線形貯水池の分離容量

Separation capacity of linear reservoirs with random connectivity matrix ( http://arxiv.org/abs/2404.17429v2 )

ライセンス: Link先を確認
Youness Boutaib, (参考訳) 貯水池計算の成功は貯水池の分離能力の内にあると論じ、ランダムな線形貯水池の分離能力は、モーメントの一般化行列のスペクトル分解によって完全に特徴づけられることを示す。 特に興味深いのは、対称的であるか、全ての成分が独立であるガウス行列を持つ貯水池である。 対称的な場合、分離能力は常に時間とともに劣化することが証明され、短い入力では、行列のエントリが$\rho_T/\sqrt{N}$でスケールされると、大きな貯水池との分離が最善である。 i.d.の場合、貯水池行列の成分が1/\sqrt{N}$の正確な係数でスケールされたときに、大きな貯水池との最適分離が一貫して達成されることを確かめる。 さらに、時系列の長さの関数における分離の質について上限を与える。 この分析を補完し、この分離の可能性と、選択したアーキテクチャが分離整合性に与える影響について検討する。

We argue that the success of reservoir computing lies within the separation capacity of the reservoirs and show that the expected separation capacity of random linear reservoirs is fully characterised by the spectral decomposition of an associated generalised matrix of moments. Of particular interest are reservoirs with Gaussian matrices that are either symmetric or whose entries are all independent. In the symmetric case, we prove that the separation capacity always deteriorates with time; while for short inputs, separation with large reservoirs is best achieved when the entries of the matrix are scaled with a factor $\rho_T/\sqrt{N}$, where $N$ is the dimension of the reservoir and $\rho_T$ depends on the maximum length of the input time series. In the i.i.d. case, we establish that optimal separation with large reservoirs is consistently achieved when the entries of the reservoir matrix are scaled with the exact factor $1/\sqrt{N}$. We further give upper bounds on the quality of separation in function of the length of the time series. We complement this analysis with an investigation of the likelihood of this separation and the impact of the chosen architecture on separation consistency.
翻訳日:2024-05-02 11:09:15 公開日:2024-05-01
# Fast Abstracts and Student Forum Proceedings -- EDCC 2024 -- 19th European Dependable Computing Conference

Fast Abstracts and Student Forum Proceedings -- EDCC 2024 -- 19th European Dependable Computing Conference ( http://arxiv.org/abs/2404.17465v2 )

ライセンス: Link先を確認
Simona Bernardi, Tommaso Zoppi, (参考訳) Fast Abstractsトラックの目標は、研究者や実践者が信頼性の高いコンピューティングに取り組むことで、進捗や意見の断片について議論することである。 学業や産業界からの貢献を歓迎する。 Fast Abstractsは、迅速で柔軟なメカニズムとして機能することを目指している。 一 完了又は未完了の可能性のある現在の業務の報告 (二)地域社会に新しい考えを導入すること。 三 物議を醸す問題又は公開問題に関する国家の立場 四 実語信頼性工学から学んだ教訓の共有 五 反表示に基づく他の書類による取消し又は質問結果 学生フォーラムは、学生が自分の仕事を発表し、議論し、他の学生、研究者、産業とアイデアと経験を交換できる活気ある友好的な環境を作ることを目標としている。 このフォーラムの重要な目標の1つは、将来の研究の方向性に役立つであろう予備的な結果について学生にフィードバックを提供することである。

The goal of the Fast Abstracts track is to bring together researchers and practitioners working on dependable computing to discuss work in progress or opinion pieces. Contributions are welcome from academia and industry. Fast Abstracts aim to serve as a rapid and flexible mechanism to: (i) Report on current work that may or may not be complete; (ii) Introduce new ideas to the community; (iii) State positions on controversial issues or open problems; (iv) Share lessons learnt from real-word dependability engineering; and (v) Debunk or question results from other papers based on contra-indications. The Student Forum aims at creating a vibrant and friendly environment where students can present and discuss their work, and exchange ideas and experiences with other students, researchers and industry. One of the key goals of the Forum is to provide students with feedback on their preliminary results that might help with their future research directions.
翻訳日:2024-05-02 11:09:15 公開日:2024-05-01
# 効率的なVNFプロファイリングに向けたフェデレート転送成分分析

Federated Transfer Component Analysis Towards Effective VNF Profiling ( http://arxiv.org/abs/2404.17553v2 )

ライセンス: Link先を確認
Xunzheng Zhang, Shadi Moazzeni, Juan Marcelo Parra-Ullauri, Reza Nejabati, Dimitra Simeonidou, (参考訳) 知識伝達とデータプライバシに関する懸念の高まりは、ネットワークにおける従来の収集と分析のパラダイムに挑戦する。 具体的には、仮想ネットワーク関数(VNF)のインテリジェントなオーケストレーションには、リソース消費の理解とプロファイリングが必要である。 しかし、あらゆる種類のVNFのプロファイリングには時間がかかる。 データの非公開性を維持しながら、よく知られたVNF知識を他の注目されていないVNFタイプに転送することを検討することが重要である。 そこで本研究では,ソースとターゲットVNF間のFederated Transfer Component Analysis(FTCA)手法を提案する。 FTCAは、まずソースVNFプロファイリングデータに基づいてGAN(Generative Adversarial Networks)を訓練し、トレーニングされたGANsモデルをターゲットVNFドメインに送信する。 そして、FTCAは、生成されたソースVNFデータを使用して、生データをローカルに保持しつつ、ターゲットVNFプロファイリングデータを少なくすることで、フェデレートされたドメイン適応を実現する。 実験により、提案されたFTCAは、ターゲットVNFに必要なリソースを効果的に予測できることが示されている。 具体的には、回帰モデルのRMSE指数は38.5%減少し、R2乗計量は68.6%上昇する。

The increasing concerns of knowledge transfer and data privacy challenge the traditional gather-and-analyse paradigm in networks. Specifically, the intelligent orchestration of Virtual Network Functions (VNFs) requires understanding and profiling the resource consumption. However, profiling all kinds of VNFs is time-consuming. It is important to consider transferring the well-profiled VNF knowledge to other lack-profiled VNF types while keeping data private. To this end, this paper proposes a Federated Transfer Component Analysis (FTCA) method between the source and target VNFs. FTCA first trains Generative Adversarial Networks (GANs) based on the source VNF profiling data, and the trained GANs model is sent to the target VNF domain. Then, FTCA realizes federated domain adaptation by using the generated source VNF data and less target VNF profiling data, while keeping the raw data locally. Experiments show that the proposed FTCA can effectively predict the required resources for the target VNF. Specifically, the RMSE index of the regression model decreases by 38.5% and the R-squared metric advances up to 68.6%.
翻訳日:2024-05-02 11:09:15 公開日:2024-05-01
# 雑音ラベルを用いたインテクスト学習のロバストさの探索

Exploring the Robustness of In-Context Learning with Noisy Labels ( http://arxiv.org/abs/2404.18191v2 )

ライセンス: Link先を確認
Chen Cheng, Xinzhi Yu, Haodong Wen, Jingsong Sun, Guanzhang Yue, Yihao Zhang, Zeming Wei, (参考訳) 近年、トランスフォーマーアーキテクチャ、特に大規模言語モデル(LLM)において、謎のインコンテキスト学習(ICL)能力が注目されている。 しかし, 学習コーパスと即時デモンストレーションの両方でよく見られるノイズのあるサンプルの存在下でのトランスフォーマーの文脈内学習能力のレジリエンスは, 未解明のままである。 本稿では,単純な関数クラスを用いたICL能力の研究に触発されて,雑音ラベルに対するトランスフォーマーの堅牢性を調べることによって,この問題をより深く検討する。 具体的には、まず、テキスト内学習における雑音ラベルに対するトランスフォーマーの頑健さを徹底的に評価し、実演ラベルにおける様々な種類の雑音に対する顕著な耐性を示すことを示す。 さらに、トレーニングセットにノイズを導入するか、データ拡張の形式に類似し、推論中にそのようなロバスト性を高め、そのようなノイズがICLのロバスト性を向上させることができることを確かめることにより、この問題を深く掘り下げる。 我々の実りある分析と知見は、ICL中のラベルノイズに対するトランスフォーマーモデルのレジリエンスを包括的に理解し、自然言語処理におけるトランスフォーマーの研究に関する貴重な知見を提供する。 私たちのコードはhttps://github.com/InezYu0928/in-context-learningで利用可能です。

Recently, the mysterious In-Context Learning (ICL) ability exhibited by Transformer architectures, especially in large language models (LLMs), has sparked significant research interest. However, the resilience of Transformers' in-context learning capabilities in the presence of noisy samples, prevalent in both training corpora and prompt demonstrations, remains underexplored. In this paper, inspired by prior research that studies ICL ability using simple function classes, we take a closer look at this problem by investigating the robustness of Transformers against noisy labels. Specifically, we first conduct a thorough evaluation and analysis of the robustness of Transformers against noisy labels during in-context learning and show that they exhibit notable resilience against diverse types of noise in demonstration labels. Furthermore, we delve deeper into this problem by exploring whether introducing noise into the training set, akin to a form of data augmentation, enhances such robustness during inference, and find that such noise can indeed improve the robustness of ICL. Overall, our fruitful analysis and findings provide a comprehensive understanding of the resilience of Transformer models against label noises during ICL and provide valuable insights into the research on Transformers in natural language processing. Our code is available at https://github.com/InezYu0928/in-context-learning.
翻訳日:2024-05-02 11:09:15 公開日:2024-05-01
# セマンティックライン複合検出器

Semantic Line Combination Detector ( http://arxiv.org/abs/2404.18399v2 )

ライセンス: Link先を確認
Jinwon Ko, Dongkwon Jin, Chang-Su Kim, (参考訳) 本稿では,セマンティック・ライン・コンビネーション・ディテクター (SLCD) と呼ばれる,セマンティック・ラインの最適組み合わせを求める新しいアルゴリズムを提案する。 各ラインの組み合わせで全てのラインを一度に処理し、ライン全体の調和を評価する。 まず、信頼された線から様々な線の組み合わせを生成する。 次に,各行の組み合わせのスコアを推定し,最適なスコアを決定する。 実験により,提案したSLCDは,様々なデータセット上で既存の意味線検出器よりも優れた性能を示した。 さらに, 点検出, 対称軸検出, 合成画像検索の3つの視覚タスクに対して, SLCDを効果的に適用できることが示唆された。 私たちのコードはhttps://github.com/Jinwon-Ko/SLCD.comで公開されています。

A novel algorithm, called semantic line combination detector (SLCD), to find an optimal combination of semantic lines is proposed in this paper. It processes all lines in each line combination at once to assess the overall harmony of the lines. First, we generate various line combinations from reliable lines. Second, we estimate the score of each line combination and determine the best one. Experimental results demonstrate that the proposed SLCD outperforms existing semantic line detectors on various datasets. Moreover, it is shown that SLCD can be applied effectively to three vision tasks of vanishing point detection, symmetry axis detection, and composition-based image retrieval. Our codes are available at https://github.com/Jinwon-Ko/SLCD.
翻訳日:2024-05-02 10:59:25 公開日:2024-05-01
# 医療におけるジェミニモデルの能力

Capabilities of Gemini Models in Medicine ( http://arxiv.org/abs/2404.18416v2 )

ライセンス: Link先を確認
Khaled Saab, Tao Tu, Wei-Hung Weng, Ryutaro Tanno, David Stutz, Ellery Wulczyn, Fan Zhang, Tim Strother, Chunjong Park, Elahe Vedadi, Juanma Zambrano Chaves, Szu-Yeu Hu, Mike Schaekermann, Aishwarya Kamath, Yong Cheng, David G. T. Barrett, Cathy Cheung, Basil Mustafa, Anil Palepu, Daniel McDuff, Le Hou, Tomer Golany, Luyang Liu, Jean-baptiste Alayrac, Neil Houlsby, Nenad Tomasev, Jan Freyberg, Charles Lau, Jonas Kemp, Jeremy Lai, Shekoofeh Azizi, Kimberly Kanada, SiWai Man, Kavita Kulkarni, Ruoxi Sun, Siamak Shakeri, Luheng He, Ben Caine, Albert Webson, Natasha Latysheva, Melvin Johnson, Philip Mansfield, Jian Lu, Ehud Rivlin, Jesper Anderson, Bradley Green, Renee Wong, Jonathan Krause, Jonathon Shlens, Ewa Dominowska, S. M. Ali Eslami, Katherine Chou, Claire Cui, Oriol Vinyals, Koray Kavukcuoglu, James Manyika, Jeff Dean, Demis Hassabis, Yossi Matias, Dale Webster, Joelle Barral, Greg Corrado, Christopher Semturs, S. Sara Mahdavi, Juraj Gottweis, Alan Karthikesalingam, Vivek Natarajan, (参考訳) 幅広い医療応用における卓越性は、高度な推論、最新の医療知識へのアクセス、複雑なマルチモーダルデータの理解といった、AIに重大な課題をもたらす。 マルチモーダルおよび長文推論において強力な汎用能力を持つジェミニモデルは、医学においてエキサイティングな可能性をもたらす。 Geminiの中核となる強みを生かしたMed-Geminiは,Web検索をシームレスに利用し,カスタムエンコーダを用いた新しいモダリティに効率的に適合させることができる,医療専門の高度なマルチモーダルモデルのファミリーである。 我々は14のベンチマークでMed-Geminiを評価し、そのうち10のベンチマークで新しい最先端(SoTA)性能を確立し、直接比較が可能なベンチマークでGPT-4モデルファミリを上回った。 人気の高いMedQA(USMLE)ベンチマークでは、新しい不確実性誘導探索戦略を用いて、最高の性能のMed-GeminiモデルでSoTAの精度91.1%を達成した。 NEJM Image ChallengesやMMMU (Health & Medicine)を含む7つのマルチモーダルベンチマークでは、メドジェニーニはGPT-4Vよりも44.5%改善している。 本研究は,Med-Geminiの長期的コンテキスト能力が,長期未確認健康記録と医療ビデオ質問応答から,文脈内学習のみを用いた事前のベスポーク手法を超越して,ニードル・イン・ア・ヘイスタック検索タスクに与える影響を実証するものである。 最後に、Med-Geminiのパフォーマンスは、マルチモーダル医療対話、医学研究、教育における有望な可能性の実証とともに、医療テキスト要約のようなタスクに関する人間の専門家を上回ることで、現実世界の実用性を示唆している。 まとめると、我々の結果は、Med-Geminiの潜在的な可能性を示す説得力のある証拠を提供するが、この安全クリティカルな領域に現実世界が配備される前には、さらなる厳密な評価が不可欠である。

Excellence in a wide variety of medical applications poses considerable challenges for AI, requiring advanced reasoning, access to up-to-date medical knowledge and understanding of complex multimodal data. Gemini models, with strong general capabilities in multimodal and long-context reasoning, offer exciting possibilities in medicine. Building on these core strengths of Gemini, we introduce Med-Gemini, a family of highly capable multimodal models that are specialized in medicine with the ability to seamlessly use web search, and that can be efficiently tailored to novel modalities using custom encoders. We evaluate Med-Gemini on 14 medical benchmarks, establishing new state-of-the-art (SoTA) performance on 10 of them, and surpass the GPT-4 model family on every benchmark where a direct comparison is viable, often by a wide margin. On the popular MedQA (USMLE) benchmark, our best-performing Med-Gemini model achieves SoTA performance of 91.1% accuracy, using a novel uncertainty-guided search strategy. On 7 multimodal benchmarks including NEJM Image Challenges and MMMU (health & medicine), Med-Gemini improves over GPT-4V by an average relative margin of 44.5%. We demonstrate the effectiveness of Med-Gemini's long-context capabilities through SoTA performance on a needle-in-a-haystack retrieval task from long de-identified health records and medical video question answering, surpassing prior bespoke methods using only in-context learning. Finally, Med-Gemini's performance suggests real-world utility by surpassing human experts on tasks such as medical text summarization, alongside demonstrations of promising potential for multimodal medical dialogue, medical research and education. Taken together, our results offer compelling evidence for Med-Gemini's potential, although further rigorous evaluation will be crucial before real-world deployment in this safety-critical domain.
翻訳日:2024-05-02 10:59:25 公開日:2024-05-01
# U-Nets as Belief Propagation:Efficient Classification, Denoising and Diffusion in Generative Hierarchical Models

U-Nets as Belief Propagation: Efficient Classification, Denoising, and Diffusion in Generative Hierarchical Models ( http://arxiv.org/abs/2404.18444v2 )

ライセンス: Link先を確認
Song Mei, (参考訳) U-Netはコンピュータビジョンにおいて最も広く使われているアーキテクチャの1つであり、画像のセグメンテーション、デノナイジング、拡散モデリングなどのアプリケーションにおける例外的な性能で有名である。 しかし、U-Netアーキテクチャの設計に関する理論的説明はまだ完全には確立されていない。 本稿では,木構造図形モデルである生成階層モデルを言語と画像の両領域で広く活用することによる,U-Netアーキテクチャの新たな解釈を紹介する。 エンコーダ・デコーダ構造、長いスキップ接続、プーリングおよびアップサンプリング層を用いて、U-Netがこのような生成階層モデルに自然に信条伝搬復号化アルゴリズムを実装し、効率的に復号化関数を近似する方法を実証する。 これにより、これらのモデル内のU-Netを使ってデノナイジング関数を学習するための効率的なサンプル複雑性が導かれる。 さらに,これらの発見が生成階層モデルにおける拡散モデルに与える影響についても論じる。 また、畳み込みニューラルネットワーク(ConvNets)の従来のアーキテクチャは、これらのモデル内の分類タスクに最適であることを示す。 これはConvNetsとU-Netsの役割を統一したビューを提供し、言語と画像ドメインをまたいだ複雑なデータ分散をモデル化する生成階層モデルの汎用性を強調している。

U-Nets are among the most widely used architectures in computer vision, renowned for their exceptional performance in applications such as image segmentation, denoising, and diffusion modeling. However, a theoretical explanation of the U-Net architecture design has not yet been fully established. This paper introduces a novel interpretation of the U-Net architecture by studying certain generative hierarchical models, which are tree-structured graphical models extensively utilized in both language and image domains. With their encoder-decoder structure, long skip connections, and pooling and up-sampling layers, we demonstrate how U-Nets can naturally implement the belief propagation denoising algorithm in such generative hierarchical models, thereby efficiently approximating the denoising functions. This leads to an efficient sample complexity bound for learning the denoising function using U-Nets within these models. Additionally, we discuss the broader implications of these findings for diffusion models in generative hierarchical models. We also demonstrate that the conventional architecture of convolutional neural networks (ConvNets) is ideally suited for classification tasks within these models. This offers a unified view of the roles of ConvNets and U-Nets, highlighting the versatility of generative hierarchical models in modeling complex data distributions across language and image domains.
翻訳日:2024-05-02 10:59:25 公開日:2024-05-01
# フェデレーション学習環境におけるデータ不均一性の影響と医療ネットワークへの応用

On the Impact of Data Heterogeneity in Federated Learning Environments with Application to Healthcare Networks ( http://arxiv.org/abs/2404.18519v2 )

ライセンス: Link先を確認
Usevalad Milasheuski. Luca Barbieri, Bernardo Camajori Tedeschini, Monica Nicoli, Stefano Savazzi, (参考訳) フェデレートラーニング(FL)は、複数のプライバシに敏感なアプリケーションが、情報を開示することなく、自身のデータセットをグローバルモデル構築に活用することを可能にする。 これらの領域の1つは医療であり、サイロのグループは、精度と一般化を改善したグローバルな予測器を生成するために協力する。 しかし、本質的な課題は、医療データの高度不均一性であり、評価と補償のために高度な技術を必要とすることである。 本稿では,医学データの複雑さに着目し,FL環境における不均一性の数学的形式化と分類を包括的に調査する。 特に、量ベース、特徴およびラベル分布に基づく不均一性に対処する能力に関して、最も人気のあるFLアルゴリズムの評価と比較について述べる。 目的は、医療ネットワークにおけるFLシステムにおけるデータ不均一性の影響の定量的評価と、FLアルゴリズム選択に関するガイドラインを提供することである。 我々の研究は、医療データユースケースがもたらす固有の課題に対して、最も一般的なFLアルゴリズムの7つをベンチマークすることで、既存の研究を超えています。 本論文は,異なる病院サイロによって収集された表型臨床報告を用いて,脳卒中再発のリスクを予測することを目的としている。

Federated Learning (FL) allows multiple privacy-sensitive applications to leverage their dataset for a global model construction without any disclosure of the information. One of those domains is healthcare, where groups of silos collaborate in order to generate a global predictor with improved accuracy and generalization. However, the inherent challenge lies in the high heterogeneity of medical data, necessitating sophisticated techniques for assessment and compensation. This paper presents a comprehensive exploration of the mathematical formalization and taxonomy of heterogeneity within FL environments, focusing on the intricacies of medical data. In particular, we address the evaluation and comparison of the most popular FL algorithms with respect to their ability to cope with quantity-based, feature and label distribution-based heterogeneity. The goal is to provide a quantitative evaluation of the impact of data heterogeneity in FL systems for healthcare networks as well as a guideline on FL algorithm selection. Our research extends beyond existing studies by benchmarking seven of the most common FL algorithms against the unique challenges posed by medical data use cases. The paper targets the prediction of the risk of stroke recurrence through a set of tabular clinical reports collected by different federated hospital silos: data heterogeneity frequently encountered in this scenario and its impact on FL performance are discussed.
翻訳日:2024-05-02 10:59:25 公開日:2024-05-01
# 機械学習における解釈を信頼すべきでない理由 - 部分依存型に対する敵対的攻撃

Why You Should Not Trust Interpretations in Machine Learning: Adversarial Attacks on Partial Dependence Plots ( http://arxiv.org/abs/2404.18702v2 )

ライセンス: Link先を確認
Xi Xin, Giles Hooker, Fei Huang, (参考訳) 産業間で人工知能(AI)が採用され、複雑なブラックボックスモデルや解釈ツールが広く使われるようになった。 本稿では,機械学習タスクにおける置換に基づく解釈手法の脆弱性を明らかにするために,特に部分依存(PD)プロットに着目した逆方向のフレームワークを提案する。 この逆のフレームワークはオリジナルのブラックボックスモデルを修正し、外挿領域のインスタンスの予測を操作する。 結果として、オリジナルのモデルの予測の大部分を保存しながら、識別行動を隠すことができる偽のPDプロットを生成する。 このフレームワークは、1つのモデルで複数の不正なPDプロットを生成することができる。 自動保険請求データセットやCompAS(Correctional Offender Management Profiling for Alternative Sanctions)データセットを含む現実のデータセットを使用することで,予測者の識別行動を意図的に隠蔽し,PDプロットなどの解釈ツールを通じてブラックボックスモデルを中立にすることができる。 この結果に基づいて、規制当局や実務者に対する管理的洞察が提供される。

The adoption of artificial intelligence (AI) across industries has led to the widespread use of complex black-box models and interpretation tools for decision making. This paper proposes an adversarial framework to uncover the vulnerability of permutation-based interpretation methods for machine learning tasks, with a particular focus on partial dependence (PD) plots. This adversarial framework modifies the original black box model to manipulate its predictions for instances in the extrapolation domain. As a result, it produces deceptive PD plots that can conceal discriminatory behaviors while preserving most of the original model's predictions. This framework can produce multiple fooled PD plots via a single model. By using real-world datasets including an auto insurance claims dataset and COMPAS (Correctional Offender Management Profiling for Alternative Sanctions) dataset, our results show that it is possible to intentionally hide the discriminatory behavior of a predictor and make the black-box model appear neutral through interpretation tools like PD plots while retaining almost all the predictions of the original black-box model. Managerial insights for regulators and practitioners are provided based on the findings.
翻訳日:2024-05-02 10:59:25 公開日:2024-05-01
# KBX:形式的双方向変換による検証モデル同期

KBX: Verified Model Synchronization via Formal Bidirectional Transformation ( http://arxiv.org/abs/2404.18771v2 )

ライセンス: Link先を確認
Jianhong Zhao, Yongwang Zhao, Peisen Yao, Fanlang Zeng, Bohua Zhan, Kui Ren, (参考訳) 複雑な安全クリティカルなシステムは包括的記述のために複数のモデルを必要とするため、エラーが発生しやすい開発と厳密な検証が生じる。 双方向変換(BX)は、これらのモデルを自動的に同期するアプローチである。 しかし、既存のBXフレームワークはこれらのモデルの一貫性を厳格に強制する正式な検証を欠いている。 本稿では,検証モデル同期のための形式的双方向変換フレームワークKBXを紹介する。 まず、マッチング論理に基づくBXモデルを示し、$\mathbb{K}$フレームワーク内でBX定義を構築するための論理的基盤を提供する。 第2に,一方向定義から形式的BX定義を合成するアルゴリズムを提案する。 その後、$\mathbb{K}$を使用して、一貫性の維持と検証のために合成された定義から形式的シンクロナイザを生成する。 KBXの有効性を評価するため,既存のBXフレームワークとの比較分析を行った。 さらに,UML と HCSP 間の BX 構築における KBX の応用を実世界のシナリオに適用し,$\mathbb{K}$ のマニュアル仕様記述に比べて BX 開発作業が82.8 % 削減されたことを示す。

Complex safety-critical systems require multiple models for a comprehensive description, resulting in error-prone development and laborious verification. Bidirectional transformation (BX) is an approach to automatically synchronizing these models. However, existing BX frameworks lack formal verification to enforce these models' consistency rigorously. This paper introduces KBX, a formal bidirectional transformation framework for verified model synchronization. First, we present a matching logic-based BX model, providing a logical foundation for constructing BX definitions within the $\mathbb{K}$ framework. Second, we propose algorithms to synthesize formal BX definitions from unidirectional ones, which allows developers to focus on crafting the unidirectional definitions while disregarding the reverse direction and missing information recovery for synchronization. Afterward, we harness $\mathbb{K}$ to generate a formal synchronizer from the synthesized definitions for consistency maintenance and verification. To evaluate the effectiveness of KBX, we conduct a comparative analysis against existing BX frameworks. Furthermore, we demonstrate the application of KBX in constructing a BX between UML and HCSP for real-world scenarios, showcasing an 82.8\% reduction in BX development effort compared to manual specification writing in $\mathbb{K}$.
翻訳日:2024-05-02 10:59:25 公開日:2024-05-01
# 陪審員による審査員のリプレース:多変量モデルによるLCM生成の評価

Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models ( http://arxiv.org/abs/2404.18796v2 )

ライセンス: Link先を確認
Pat Verga, Sebastian Hofstatter, Sophia Althammer, Yixuan Su, Aleksandra Piktus, Arkady Arkhangorodsky, Minjie Xu, Naomi White, Patrick Lewis, (参考訳) LLM(Large Language Models)がさらに進歩するにつれて、その品質を正確に評価する能力が向上しました。 特定のモデル特性を適切に調査するデータを見つけることは困難であるだけでなく、モデルの自由形式生成のみの正確性を評価することが困難である。 これを解決するために、多くの評価は、他のLLMからの出力の質を評価するために、LLM自体を審査員として使用することに頼っている。 評価はGPT4のような単一の大きなモデルを使用するのが一般的である。 この手法は広く普及しているが、コストが高く、モデル内バイアスをもたらすことが示されており、本研究では、非常に大きなモデルがしばしば不要であることが判明している。 代わりに、LLm評価器(PoLL)のパネルを用いてモデルを評価することを提案する。 3つの異なる判断設定と6つの異なるデータセットにまたがって、より多数の小さなモデルで構成されたPoLLは、1つの大きな判断よりも優れており、不整合モデルファミリーの構成によるモデル内バイアスが小さく、しかも7倍以上のコストがかかる。

As Large Language Models (LLMs) have become more advanced, they have outpaced our abilities to accurately evaluate their quality. Not only is finding data to adequately probe particular model properties difficult, but evaluating the correctness of a model's freeform generation alone is a challenge. To address this, many evaluations now rely on using LLMs themselves as judges to score the quality of outputs from other LLMs. Evaluations most commonly use a single large model like GPT4. While this method has grown in popularity, it is costly, has been shown to introduce intramodel bias, and in this work, we find that very large models are often unnecessary. We propose instead to evaluate models using a Panel of LLm evaluators (PoLL). Across three distinct judge settings and spanning six different datasets, we find that using a PoLL composed of a larger number of smaller models outperforms a single large judge, exhibits less intra-model bias due to its composition of disjoint model families, and does so while being over seven times less expensive.
翻訳日:2024-05-02 10:59:25 公開日:2024-05-01
# マネーロンダリングの形状:Elliptic2データセットを用いたブロックチェーン上でのサブグラフ表現学習

The Shape of Money Laundering: Subgraph Representation Learning on the Blockchain with the Elliptic2 Dataset ( http://arxiv.org/abs/2404.19109v2 )

ライセンス: Link先を確認
Claudio Bellei, Muhua Xu, Ross Phillips, Tom Robinson, Mark Weber, Tim Kaler, Charles E. Leiserson, Arvind, Jie Chen, (参考訳) サブグラフ表現学習(Subgraph representation learning)は、複雑なネットワーク内の局所構造(または形状)を分析する技術である。 スケーラブルグラフニューラルネットワーク(GNN)の最近の発展によって実現されたこのアプローチは、ノードの抽象化レベルではなく、サブグループレベル(複数接続ノード)でリレーショナル情報をエンコードする。 我々は、アンチマネーロンダリング(AML)のような特定のドメインアプリケーションは本質的にサブグラフ問題であり、メインストリームグラフ技術は最適化の準位で運用されていると仮定する。 これは、実際のサイズと複雑さの注釈付きデータセットの不足に加えて、大規模にGNNワークフローを管理するためのソフトウェアツールの欠如による部分もある。 基本アルゴリズムやAMLなどのドメインアプリケーションでの作業を可能にするため、49Mノードクラスタと196Mエッジトランザクションからなるバックグラウンドグラフ内に、122KラベルのBitcoinクラスタのサブグラフを含む巨大なグラフデータセットであるElliptic2を紹介した。 このデータセットは、マネーロンダリングが暗号通貨で展示する「事例」の集合を学習し、新しい犯罪行為を正確に分類するために、不正行為と結びつくことが知られているサブグラフを提供する。 データセットとともに、私たちのグラフ技術、ソフトウェアツール、有望な初期の実験結果、そしてこのアプローチから既に得られる新たなドメイン洞察を共有しています。 同時に、このアプローチの即時的な実践価値と、仮想通貨やその他の金融ネットワークにおけるマネーロンダリングと法医学的分析の新しい標準の可能性を見出した。

Subgraph representation learning is a technique for analyzing local structures (or shapes) within complex networks. Enabled by recent developments in scalable Graph Neural Networks (GNNs), this approach encodes relational information at a subgroup level (multiple connected nodes) rather than at a node level of abstraction. We posit that certain domain applications, such as anti-money laundering (AML), are inherently subgraph problems and mainstream graph techniques have been operating at a suboptimal level of abstraction. This is due in part to the scarcity of annotated datasets of real-world size and complexity, as well as the lack of software tools for managing subgraph GNN workflows at scale. To enable work in fundamental algorithms as well as domain applications in AML and beyond, we introduce Elliptic2, a large graph dataset containing 122K labeled subgraphs of Bitcoin clusters within a background graph consisting of 49M node clusters and 196M edge transactions. The dataset provides subgraphs known to be linked to illicit activity for learning the set of "shapes" that money laundering exhibits in cryptocurrency and accurately classifying new criminal activity. Along with the dataset we share our graph techniques, software tooling, promising early experimental results, and new domain insights already gleaned from this approach. Taken together, we find immediate practical value in this approach and the potential for a new standard in anti-money laundering and forensic analytics in cryptocurrencies and other financial networks.
翻訳日:2024-05-02 10:59:25 公開日:2024-05-01
# 直交型ブートストラップ:入力不確かさの効率的なシミュレーション

Orthogonal Bootstrap: Efficient Simulation of Input Uncertainty ( http://arxiv.org/abs/2404.19145v2 )

ライセンス: Link先を確認
Kaizhao Liu, Jose Blanchet, Lexing Ying, Yiping Lu, (参考訳) Bootstrapは入力の不確実性をシミュレートするための一般的な方法論です。 しかし、サンプル数が多ければ計算コストがかかる可能性がある。 そこで本稿では,モンテカルロ複製に必要な数を削減するための新しい手法として, textbf{Orthogonal Bootstrap}を提案する。 Infinitesimal Jackknife として知られる閉形式の結果を持つ \textit{non-orthogonal part} と、シミュレートが容易な \textit{orthogonal part} である。 理論的,数値的には,Orthogonal BootstrapはBootstrapの計算コストを大幅に削減し,経験的精度を向上し,構成間隔の同じ幅を維持する。

Bootstrap is a popular methodology for simulating input uncertainty. However, it can be computationally expensive when the number of samples is large. We propose a new approach called \textbf{Orthogonal Bootstrap} that reduces the number of required Monte Carlo replications. We decomposes the target being simulated into two parts: the \textit{non-orthogonal part} which has a closed-form result known as Infinitesimal Jackknife and the \textit{orthogonal part} which is easier to be simulated. We theoretically and numerically show that Orthogonal Bootstrap significantly reduces the computational cost of Bootstrap while improving empirical accuracy and maintaining the same width of the constructed interval.
翻訳日:2024-05-02 10:59:25 公開日:2024-05-01
# パラメータに基づく深さ依存歪みモデルの最小セットとステレオビジョンシステムに対する校正法

A Minimal Set of Parameters Based Depth-Dependent Distortion Model and Its Calibration Method for Stereo Vision Systems ( http://arxiv.org/abs/2404.19242v2 )

ライセンス: Link先を確認
Xin Ma, Puchen Zhu, Xiao Li, Xiaoyin Zheng, Jianshu Zhou, Xuchen Wang, Kwok Wai Samuel Au, (参考訳) 奥行き位置は、特に近距離撮影においてレンズの歪みに大きく影響し、既存の立体視システムの測定精度を制限している。 さらに,従来の深度依存歪みモデルとそのキャリブレーション法は複雑である。 本研究では,立体視システムの精度を向上し,キャリブレーションプロセスの簡素化を図るため,レンズの半径歪みと収差歪みを考慮した最小限のパラメータベース深度依存歪みモデル(MDM)を提案する。 さらに, 平面図形を用いた立体視システムのMDMの簡易かつ柔軟なキャリブレーション手法を提案し, カメラが平面図形を異なる方向で観察する必要がある。 提案手法は、レンズが平面パターンに垂直でなければならない奥行き依存歪みモデルに対する古典的キャリブレーション法と比較して、使いやすく柔軟である。 MDMとキャリブレーション法を実験的に検証した結果、従来のLiの歪みモデルやブラウンの歪みモデルと比較して、MDMはキャリブレーション精度を56.55%、74.15%改善した。 さらに,3次元再構成におけるMDMの深度情報を反復的に推定する反復的再構成手法を提案する。 その結果, 繰り返し再建法の精度は, 非整合再建法と比較して9.08%向上した。

Depth position highly affects lens distortion, especially in close-range photography, which limits the measurement accuracy of existing stereo vision systems. Moreover, traditional depth-dependent distortion models and their calibration methods have remained complicated. In this work, we propose a minimal set of parameters based depth-dependent distortion model (MDM), which considers the radial and decentering distortions of the lens to improve the accuracy of stereo vision systems and simplify their calibration process. In addition, we present an easy and flexible calibration method for the MDM of stereo vision systems with a commonly used planar pattern, which requires cameras to observe the planar pattern in different orientations. The proposed technique is easy to use and flexible compared with classical calibration techniques for depth-dependent distortion models in which the lens must be perpendicular to the planar pattern. The experimental validation of the MDM and its calibration method showed that the MDM improved the calibration accuracy by 56.55% and 74.15% compared with the Li's distortion model and traditional Brown's distortion model. Besides, an iteration-based reconstruction method is proposed to iteratively estimate the depth information in the MDM during three-dimensional reconstruction. The results showed that the accuracy of the iteration-based reconstruction method was improved by 9.08% compared with that of the non-iteration reconstruction method.
翻訳日:2024-05-02 10:59:25 公開日:2024-05-01
# 新しい現実をマッピングする:Pix2Pix画像から画像への変換による地中真実画像作成

Mapping New Realities: Ground Truth Image Creation with Pix2Pix Image-to-Image Translation ( http://arxiv.org/abs/2404.19265v2 )

ライセンス: Link先を確認
Zhenglin Li, Bo Guan, Yuanzhou Wei, Yiming Zhou, Jingyu Zhang, Jinxin Xu, (参考訳) Generative Adversarial Networks (GANs) は画像処理が大幅に進歩し、Pix2Pix は画像から画像への変換のための重要なフレームワークである。 本稿では,抽象地図画像から現実的な地上真実画像へ変換するPix2Pixの新たな応用を探求し,都市計画や自動運転車訓練などの領域において重要な画像の不足に対処する。 Pix2Pixモデルは高忠実度データセットの生成に利用されており、ペアマップと空中画像のデータセットによってサポートされており、調整されたトレーニングレギュレーションによって強化されている。 その結果、モデルが複雑な都市の特徴を正確にレンダリングする能力を示し、その有効性と幅広い実世界の応用の可能性を確立した。

Generative Adversarial Networks (GANs) have significantly advanced image processing, with Pix2Pix being a notable framework for image-to-image translation. This paper explores a novel application of Pix2Pix to transform abstract map images into realistic ground truth images, addressing the scarcity of such images crucial for domains like urban planning and autonomous vehicle training. We detail the Pix2Pix model's utilization for generating high-fidelity datasets, supported by a dataset of paired map and aerial images, and enhanced by a tailored training regimen. The results demonstrate the model's capability to accurately render complex urban features, establishing its efficacy and potential for broad real-world applications.
翻訳日:2024-05-02 10:59:25 公開日:2024-05-01
# LVOS: 大規模ビデオオブジェクトセグメンテーションのためのベンチマーク

LVOS: A Benchmark for Large-scale Long-term Video Object Segmentation ( http://arxiv.org/abs/2404.19326v2 )

ライセンス: Link先を確認
Lingyi Hong, Zhongying Liu, Wenchao Chen, Chenzhi Tan, Yuang Feng, Xinyu Zhou, Pinxue Guo, Jinglun Li, Zhaoyu Chen, Shuyong Gao, Wei Zhang, Wenqiang Zhang, (参考訳) ビデオオブジェクトセグメンテーション(VOS)は、ビデオ内のターゲットオブジェクトの識別と追跡を目的としている。 既製のVOSモデルによって達成された優れたパフォーマンスにもかかわらず、既存のVOSベンチマークは主に5秒間の短いビデオに焦点を合わせている。 しかし、これらのベンチマークは実用性に乏しく、長期的なデータセットがないため、現実的なシナリオにおけるVOSのさらなる研究が制限される。 そこで,296,401フレームの720の動画と407,945の高品質アノテーションからなるLVOSという新しいベンチマークを提案する。 LVOSのビデオは平均1.14分であり、既存のデータセットのビデオの約5倍の長さである。 それぞれのビデオには様々な属性が含まれており、特に長期的な再出現や時間横断的な類似の物体など、野生から派生した課題がある。 以前のベンチマークと比較すると、我々のLVOSは実シナリオでのVOSモデルのパフォーマンスをよりよく反映しています。 LVOSに基づいて、4つの異なる条件下で20種類の既存のVOSモデルを評価し、包括的な分析を行う。 LVOSでは、これらのモデルは大きなパフォーマンス低下を被り、現実世界のシナリオで正確なトラッキングとセグメンテーションを達成するという課題を浮き彫りにしている。 属性に基づく分析は、精度低下の鍵となる要因がビデオ長の増加であり、LVOSの重要な役割を強調していることを示している。 LVOSが実際の場面でVOSの開発を進めることを願っています。 データとコードはhttps://lingyihongfd.github.io/lvos.github.io/で公開されている。

Video object segmentation (VOS) aims to distinguish and track target objects in a video. Despite the excellent performance achieved by off-the-shell VOS models, existing VOS benchmarks mainly focus on short-term videos lasting about 5 seconds, where objects remain visible most of the time. However, these benchmarks poorly represent practical applications, and the absence of long-term datasets restricts further investigation of VOS in realistic scenarios. Thus, we propose a novel benchmark named LVOS, comprising 720 videos with 296,401 frames and 407,945 high-quality annotations. Videos in LVOS last 1.14 minutes on average, approximately 5 times longer than videos in existing datasets. Each video includes various attributes, especially challenges deriving from the wild, such as long-term reappearing and cross-temporal similar objects. Compared to previous benchmarks, our LVOS better reflects VOS models' performance in real scenarios. Based on LVOS, we evaluate 20 existing VOS models under 4 different settings and conduct a comprehensive analysis. On LVOS, these models suffer a large performance drop, highlighting the challenge of achieving precise tracking and segmentation in real-world scenarios. Attribute-based analysis indicates that key factor to accuracy decline is the increased video length, emphasizing LVOS's crucial role. We hope our LVOS can advance development of VOS in real scenes. Data and code are available at https://lingyihongfd.github.io/lvos.github.io/.
翻訳日:2024-05-02 10:59:25 公開日:2024-05-01
# 誤り関係のプロンプトへの統合による論理誤差のLLM分類の改善

Improving LLM Classification of Logical Errors by Integrating Error Relationship into Prompts ( http://arxiv.org/abs/2404.19336v2 )

ライセンス: Link先を確認
Yanggyu Lee, Suchae Jeong, Jihie Kim, (参考訳) プログラミング構文の理解において訓練されたLLMは、現在、開発者に効果的な支援を提供しており、コーディング問題の生成やコード説明の提供など、プログラミング教育で使用されている。 プログラミング教育の重要な側面は、エラーメッセージの理解と処理である。 しかし、プログラムがプログラマの意図に反して動作している「論理エラー」は、コンパイラからエラーメッセージを受け取らない。 本研究では,プログラムエラーに関する既存の研究に基づいて,プログラミング全般において発生する論理的エラーの種類をまず定義する。 本定義に基づき, チェーン・オブ・ソート・ツリー・オブ・ソート・プロンプトにおけるエラータイプ間の関係を利用したLLMを用いた論理誤差検出手法を提案する。 実験結果から, プロンプトにおける論理的誤り記述を用いた場合, 平均等差性能は, それらのないものよりも約21%高いことがわかった。 また,LLMを用いた新しい論理的誤りデータセットの生成において,エラー間の関係を利用した実験を行った。 論理的エラーに対するデータセットが非常に限られているため、このようなベンチマークデータセットは、様々なプログラミング関連のアプリケーションに非常に有用である。 私たちは、初心者プログラマがコードエラーの原因を特定し、より効果的に修正できることを期待しています。

LLMs trained in the understanding of programming syntax are now providing effective assistance to developers and are being used in programming education such as in generation of coding problem examples or providing code explanations. A key aspect of programming education is understanding and dealing with error message. However, 'logical errors' in which the program operates against the programmer's intentions do not receive error messages from the compiler. In this study, building on existing research on programming errors, we first define the types of logical errors that can occur in programming in general. Based on the definition, we propose an effective approach for detecting logical errors with LLMs that makes use of relations among error types in the Chain-of-Thought and Tree-of-Thought prompts. The experimental results indicate that when such logical error descriptions in the prompt are used, the average classifition performance is about 21% higher than the ones without them. We also conducted an experiment for exploiting the relations among errors in generating a new logical error dataset using LLMs. As there is very limited dataset for logical errors such benchmark dataset can be very useful for various programming related applications. We expect that our work can assist novice programmers in identifying the causes of code errors and correct them more effectively.
翻訳日:2024-05-02 10:59:25 公開日:2024-05-01
# 言語へのニューロビジョン:脳記録による画像再構成と言語対応

Neuro-Vision to Language: Image Reconstruction and Language enabled Interaction via Brain Recordings ( http://arxiv.org/abs/2404.19438v2 )

ライセンス: Link先を確認
Guobin Shen, Dongcheng Zhao, Xiang He, Linghao Feng, Yiting Dong, Jihang Wang, Qian Zhang, Yi Zeng, (参考訳) 非侵襲的な脳記録の復号は、人間の認知の理解を促進する上で非常に重要であるが、個人差や複雑な神経信号の表現による課題に直面している。 従来の手法では、カスタムモデルと広範囲な試行が必要であり、視覚的再構成タスクでは解釈不可能である。 本研究では,視覚変換器3Dによる3次元脳構造と視覚的セマンティクスを統合した。 統合された特徴抽出器は、fMRI機能と複数のレベルの視覚的埋め込みを効率よく調整し、個別のモデルの必要性を排除し、単眼データからの抽出を可能にする。 この抽出器は、多レベル視覚機能を一つのネットワークに統合し、Large Language Models (LLMs)との統合を簡素化する。 さらに,マルチモーダル大規模モデル開発を支援するために,様々なfMRI画像関連テキストデータを用いてfMRIデータセットを拡張した。 LLMとの統合はデコード機能を強化し、ブレインキャプション、質問回答、詳細な説明、複雑な推論、視覚的再構成などのタスクを可能にする。 我々のアプローチは、これらのタスクに対して優れたパフォーマンスを示すだけでなく、脳信号内の言語に基づく概念を正確に識別し、操作し、解釈可能性を高め、より深いニューラルプロセスの洞察を提供する。 これらの進歩は、神経科学と人間とコンピュータの相互作用における非侵襲的な脳デコードの適用性を著しく拡大し、先進的な脳とコンピュータのインターフェースと認知モデルのためのステージを設定した。

Decoding non-invasive brain recordings is crucial for advancing our understanding of human cognition, yet faces challenges from individual differences and complex neural signal representations. Traditional methods require custom models and extensive trials, and lack interpretability in visual reconstruction tasks. Our framework integrating integrates 3D brain structures with visual semantics by Vision Transformer 3D. The unified feature extractor aligns fMRI features with multiple levels of visual embeddings efficiently, removing the need for individual-specific models and allowing extraction from single-trial data. This extractor consolidates multi-level visual features into one network, simplifying integration with Large Language Models (LLMs). Additionally, we have enhanced the fMRI dataset with various fMRI-image related textual data to support multimodal large model development. The integration with LLMs enhances decoding capabilities, enabling tasks like brain captioning, question-answering, detailed descriptions, complex reasoning, and visual reconstruction. Our approach not only shows superior performance across these tasks but also precisely identifies and manipulates language-based concepts within brain signals, enhancing interpretability and providing deeper neural process insights. These advances significantly broaden non-invasive brain decoding applicability in neuroscience and human-computer interaction, setting the stage for advanced brain-computer interfaces and cognitive models.
翻訳日:2024-05-02 10:59:25 公開日:2024-05-01
# RTG-SLAM:Gaussian Splatting を用いたリアルタイム3次元再構成

RTG-SLAM: Real-time 3D Reconstruction at Scale using Gaussian Splatting ( http://arxiv.org/abs/2404.19706v2 )

ライセンス: Link先を確認
Zhexi Peng, Tianjia Shao, Yong Liu, Jingke Zhou, Yin Yang, Jingdong Wang, Kun Zhou, (参考訳) 本稿では,RGBDカメラを用いたリアルタイム3次元再構成システムであるリアルタイムガウスSLAM(RTG-SLAM)を提案する。 このシステムはコンパクトなガウス表現と高効率なオンザフライガウス最適化スキームを備えている。 それぞれのガウス語は不透明かほぼ透明で、不透明なものは表面色と支配的な色に、透明なものは残留色に適合する。 色レンダリングと異なる方法で深度をレンダリングすることにより、複数の重複するガウスを必要とせずに、単一の不透明ガウスを局所的な曲面領域に適合させ、メモリと計算コストを大幅に削減する。 オンザフライガウス最適化では、新たに観測され、色誤差が大きく、深度誤差が大きい3種類の画素に対してガウスを明示的に追加する。 我々はまた、全てのガウスを安定で不安定なものに分類し、安定なガウスは以前に観測されたRGBD画像によく適合し、そうでなければ不安定であると予測される。 我々は不安定なガウス語のみを最適化し、不安定なガウス語が占めるピクセルのみを描画する。 このように、最適化対象のガウス数とレンダリング対象の画素数をともに大幅に削減し、リアルタイムで最適化を行うことができる。 様々な大きなシーンをリアルタイムに再現する。 現状のNeRFベースのRGBD SLAMと比較すると,本システムは高画質な再構成を実現するが,メモリコストの約2倍の速度で実現し,新しいビュー合成とカメラトラッキングの精度の現実性において優れた性能を示す。

We present Real-time Gaussian SLAM (RTG-SLAM), a real-time 3D reconstruction system with an RGBD camera for large-scale environments using Gaussian splatting. The system features a compact Gaussian representation and a highly efficient on-the-fly Gaussian optimization scheme. We force each Gaussian to be either opaque or nearly transparent, with the opaque ones fitting the surface and dominant colors, and transparent ones fitting residual colors. By rendering depth in a different way from color rendering, we let a single opaque Gaussian well fit a local surface region without the need of multiple overlapping Gaussians, hence largely reducing the memory and computation cost. For on-the-fly Gaussian optimization, we explicitly add Gaussians for three types of pixels per frame: newly observed, with large color errors, and with large depth errors. We also categorize all Gaussians into stable and unstable ones, where the stable Gaussians are expected to well fit previously observed RGBD images and otherwise unstable. We only optimize the unstable Gaussians and only render the pixels occupied by unstable Gaussians. In this way, both the number of Gaussians to be optimized and pixels to be rendered are largely reduced, and the optimization can be done in real time. We show real-time reconstructions of a variety of large scenes. Compared with the state-of-the-art NeRF-based RGBD SLAM, our system achieves comparable high-quality reconstruction but with around twice the speed and half the memory cost, and shows superior performance in the realism of novel view synthesis and camera tracking accuracy.
翻訳日:2024-05-02 10:59:25 公開日:2024-05-01